Назад | Перейти на главную страницу

3Ware 9650SE RAID-6, два поврежденных диска, один ECC, при восстановлении завис

Этим утром я пришел в офис и обнаружил, что два диска на контроллере RAID-6, 3ware 9650SE были помечены как вышедшие из строя, и он перестраивал массив. После достижения примерно 4% он получил ошибки ECC на третьем диске (это могло произойти, когда я попытался получить доступ к файловой системе на этом RAID и получил ошибки ввода-вывода от контроллера). Сейчас я в таком состоянии:

> /c2/u1 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u1       RAID-6    REBUILDING     4%(A)   -       -     64K     7450.5    
u1-0     DISK      OK             -       -       p5    -       931.312   
u1-1     DISK      OK             -       -       p2    -       931.312   
u1-2     DISK      OK             -       -       p1    -       931.312   
u1-3     DISK      OK             -       -       p4    -       931.312   
u1-4     DISK      OK             -       -       p11   -       931.312   
u1-5     DISK      DEGRADED       -       -       p6    -       931.312   
u1-6     DISK      OK             -       -       p7    -       931.312   
u1-7     DISK      DEGRADED       -       -       p3    -       931.312   
u1-8     DISK      WARNING        -       -       p9    -       931.312   
u1-9     DISK      OK             -       -       p10   -       931.312   
u1/v0    Volume    -              -       -       -     -       7450.5    

Изучив данные SMART на трех рассматриваемых дисках, два, которые УДАЛЕНЫ, находятся в хорошем состоянии (ПРОЙДЕНО без каких-либо ошибок Current_Pending_Sector или Offline_Uncorrectable), но диск, указанный как WARNING, имеет 24 неисправимых сектора.

И «восстановление» застряло на уровне 4% уже десять часов.

Так:

Как мне заставить его начать восстановление? Этот конкретный контроллер, похоже, не поддерживает /c2/u1 resume rebuild, и единственная команда восстановления, которая кажется опцией, - это та, которая хочет знать, какой диск добавить (/c2/u1 start rebuild disk=<p:-p...> [ignoreECC] по справке). У меня есть два горячих резерва на сервере, и я рад их задействовать, но я не понимаю, что он будет делать с этой информацией в текущем состоянии.

Могу ли я вытащить диск, который явно неисправен (диск WARNING), если у меня есть два DEGRADED диска в RAID-6? Мне кажется, что лучшим сценарием для меня было бы вытащить диск WARNING и сказать ему, чтобы он использовал один из моих горячих резервов при восстановлении. Но разве я не убью эту штуку, вытащив «хороший» диск в RAID-6 с двумя УНИВЕРСАЛЬНЫМИ дисками?

Наконец, в других сообщениях я видел ссылку на неисправную ошибку в этом контроллере, из-за которой хорошие диски помечаются как плохие и что обновление прошивки может помочь. Является ли перепрошивка прошивки рискованной операцией в данной ситуации? Скорее всего, это поможет или навредит восстановлению RAID 4%? Испытываю ли я эту ошибку в действии?

Совет за пределами духовного будет очень признателен. Спасибо.

Мне удалось восстановить RAID, выполнив следующую команду в tw_cli без вытаскивания дисков и перезагрузки системы:

/c2/u1 set ignoreECC=on

Перестройка началась не сразу, но в 2 часа ночи после того, как я внес это изменение, перестройка началась, и примерно через 6 часов она была завершена. На диске с ошибками ECC было 24 сбойных сектора, которые теперь были перезаписаны и перераспределены диском (согласно данным SMART). Файловая система кажется неповрежденной, но я не удивлюсь, если обнаружу ошибки, когда доберусь до данных, которые были в этих секторах.

В любом случае, мне намного лучше, чем раньше, и я, вероятно, смогу восстановить большую часть данных. Как только я получу все, что могу, я вытащу неисправный диск и перестрою его на горячий резерв.