Этим утром я пришел в офис и обнаружил, что два диска на контроллере RAID-6, 3ware 9650SE были помечены как вышедшие из строя, и он перестраивал массив. После достижения примерно 4% он получил ошибки ECC на третьем диске (это могло произойти, когда я попытался получить доступ к файловой системе на этом RAID и получил ошибки ввода-вывода от контроллера). Сейчас я в таком состоянии:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
Изучив данные SMART на трех рассматриваемых дисках, два, которые УДАЛЕНЫ, находятся в хорошем состоянии (ПРОЙДЕНО без каких-либо ошибок Current_Pending_Sector или Offline_Uncorrectable), но диск, указанный как WARNING, имеет 24 неисправимых сектора.
И «восстановление» застряло на уровне 4% уже десять часов.
Так:
Как мне заставить его начать восстановление? Этот конкретный контроллер, похоже, не поддерживает /c2/u1 resume rebuild
, и единственная команда восстановления, которая кажется опцией, - это та, которая хочет знать, какой диск добавить (/c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
по справке). У меня есть два горячих резерва на сервере, и я рад их задействовать, но я не понимаю, что он будет делать с этой информацией в текущем состоянии.
Могу ли я вытащить диск, который явно неисправен (диск WARNING), если у меня есть два DEGRADED диска в RAID-6? Мне кажется, что лучшим сценарием для меня было бы вытащить диск WARNING и сказать ему, чтобы он использовал один из моих горячих резервов при восстановлении. Но разве я не убью эту штуку, вытащив «хороший» диск в RAID-6 с двумя УНИВЕРСАЛЬНЫМИ дисками?
Наконец, в других сообщениях я видел ссылку на неисправную ошибку в этом контроллере, из-за которой хорошие диски помечаются как плохие и что обновление прошивки может помочь. Является ли перепрошивка прошивки рискованной операцией в данной ситуации? Скорее всего, это поможет или навредит восстановлению RAID 4%? Испытываю ли я эту ошибку в действии?
Совет за пределами духовного будет очень признателен. Спасибо.
Мне удалось восстановить RAID, выполнив следующую команду в tw_cli
без вытаскивания дисков и перезагрузки системы:
/c2/u1 set ignoreECC=on
Перестройка началась не сразу, но в 2 часа ночи после того, как я внес это изменение, перестройка началась, и примерно через 6 часов она была завершена. На диске с ошибками ECC было 24 сбойных сектора, которые теперь были перезаписаны и перераспределены диском (согласно данным SMART). Файловая система кажется неповрежденной, но я не удивлюсь, если обнаружу ошибки, когда доберусь до данных, которые были в этих секторах.
В любом случае, мне намного лучше, чем раньше, и я, вероятно, смогу восстановить большую часть данных. Как только я получу все, что могу, я вытащу неисправный диск и перестрою его на горячий резерв.