у меня есть RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X
с четырьмя дисками, со следующим текущим состоянием:
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 OK u0 465.76 GB 976773168 WD-WCAS87223554
p2 DEGRADED u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Перестроение включено. Иногда это начинается (Статус: REBUILDING
), кажется, что-то делает примерно минуту, а затем возвращается к REBUILD-PAUSED
. В %RCmpl
никогда не превышает 0%. Журнал (/var/log/messages
) каждые пять минут говорит:
Dec 5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.
Я новичок в этом оборудовании, и я унаследовал машину и задачу обслуживания. На что это могло указывать? Насколько велика моя проблема? Что я должен делать?
Новые события
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec 6 00:25:42 somelinux kernel: : sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec 6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec 6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec 6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec 6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec 6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c. Return address = 0xc028860d
... и ...
tw_cli> /c1 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
u1 SPARE OK - - - 465.753 - OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 WD-WCAS87320631
p1 NOT-PRESENT - - - -
p2 OK u0 465.76 GB 976773168 WD-WCAS87159042
p3 OK u1 465.76 GB 976773168 WD-WMAYP6812676
p4 NOT-PRESENT - - - -
p5 NOT-PRESENT - - - -
p6 NOT-PRESENT - - - -
p7 NOT-PRESENT - - - -
Похоже, что p1 в очень плохом состоянии.
Следуй вверх
Он всегда работал несколько минут / часов, прежде чем становился НЕРАБОЧИМ. Таким образом мне удалось сделать резервную копию данных. Мне очень повезло. Я узнал, что мне нужно уделять больше внимания, иначе нет смысла иметь избыточное хранилище.
Удалил старый массив. Удалил неисправный диск. Определен новый массив с 3 хорошими членами. Восстановленные файловые системы. Восстановил бэкапы. Счастливый конец.
Готовьтесь.
Ваш RAID 5 мертв:
u0 RAID-5 INOPERABLE - - 256K 931.303 OFF OFF
Это также причина ошибок SCSI / I / O. Ваш RAID 5 - это не 4 диска; его всего 3. Четвертый диск, p3, находится в своем собственном блоке, u1, а не в первичном блоке, u0.
Судя по предоставленному вами тексту, вероятно, произошло следующее:
Тот факт, что p2 теперь показывает «ОК», не имеет отношения к состоянию RAID 5.
Надеюсь, на этом сервере есть резервные копии, потому что вряд ли вы сможете это восстановить. Я также не верю, что tw_cli поддерживает принудительное подключение массива. Хотя следующее не поможет вам получить данные из этого отказавшего массива, вот что я рекомендую:
Кто бы ни настроил это как RAID 5 с запасным (он тоже настроен неправильно), не был самым умным.