У меня есть программный RAID1, и теперь Linux каждую неделю синхронизирует мой raid volume.
Я проверил cat /proc/mdstat
:
*Personalities : [raid1]
md3 : active raid1 sda5[0] sdb5[1]
1822445428 blocks super 1.0 [2/2] [UU]
md1 : active raid1 sdb2[1] sda2[0]
524276 blocks super 1.0 [2/2] [UU]
md2 : active raid1 sda3[0] sdb3[1]
1073741688 blocks super 1.0 [2/2] [UU]
[============>........] check = 61.9% (665688192/1073741688) finish=203.8min speed=33367K/sec
md0 : active raid1 sda1[0] sdb1[1]
33553336 blocks super 1.0 [2/2] [UU]
unused devices: <none>*
Вроде нормально. Но я проверил / log / messages и обнаружил:
41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2: EH complete
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: irq_stat 0x40000008
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: failed command: READ FPDMA QUEUED
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: cmd 60/80:00:00:48:c3/00:00:04:00:00/40 tag 0 ncq 65536 in
May 26 10:45:48 CentOS-62-64-minimal kernel: res 41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Unhandled sense code
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Любая помощь с этим? Что это может быть и что мне нужно делать?
Обычно эти ошибки означают, что диск (/ dev / sdb в вашем случае) может скоро выйти из строя.
Вы можете использовать smartctl для расширенного S.M.A.R.T. Самодиагностика на наличие ошибок.
Вы можете выполнить расширенную проверку, запустив
smartctl -t long /dev/sdb
Вы можете просмотреть результаты (а также многое другое), запустив
smartctl -a /dev/sdb
Также ищите Relocated_Sector_Ct
и Offline_Uncorrectable
ценности. Их должно быть 0. Если Relocated_Sector_Ct
> 0, то это означает, что диск уже переместил некоторые трудночитаемые сектора в резервную область диска (это нормальное поведение, но указывает на то, что вскоре диск может выйти из строя). Если Offline_Uncorrectable
> 0, то это означает, что диск вышел из строя.
Пожалуйста, опубликуйте результаты smartctl -a /dev/sdb
.
Если smartctl не установлен, вы можете установить его, запустив
yum install smartmontools -y
Также эти ошибки могут быть связаны с неисправным источником питания диска или неисправным кабелем SATA.
Кажется твой sdb
диск выходит из строя. Замени его, пока не стало слишком поздно. Вы можете попробовать использовать инструменты SMART, чтобы подтвердить эту диагностику, с помощью такой команды, как:
sudo smartctl -q errorsonly -H -l selftest /dev/hda