Назад | Перейти на главную страницу

3ware 9550SX RAID-10, один неисправный диск, восстановление и инициализация зависли

Вопрос:

Есть ли способ заставить это восстановить? Еще я подумываю выключить систему и попытаться восстановить ее в BIOS контроллера 3ware. Если я выключу эту систему в текущем состоянии, она вернется к работе или массивы будут сломаны и не загрузятся? В настоящее время система запущена и работает.

Подробности:

Зашел в один неисправный массив (деградированный), а остальные три инициализируются. Я заменил неисправный диск и попытался восстановить. Используя эти команды:

./tw_cli /c3/p1 remove
./tw_cli /c3 rescan
./tw_cli maint rebuild c3 u0 p1

В массиве RAID говорится, что он восстанавливается, но не перемещался с тех пор, как я ввел команду восстановления.

~ # ./tw_cli /c3/u0 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u0       RAID-10   REBUILDING     29%     -       -     256K    1862.61   
u0-0     RAID-1    REBUILDING     0%      -       -     -       -         
u0-0-0   DISK      OK             -       -       p0    -       465.651   
u0-0-1   DISK      DEGRADED       -       -       p1    -       465.651   
u0-1     RAID-1    INITIALIZING   62%     -       -     -       -         
u0-1-0   DISK      OK             -       -       p2    -       465.651   
u0-1-1   DISK      OK             -       -       p3    -       465.651   
u0-2     RAID-1    INITIALIZING   40%     -       -     -       -         
u0-2-0   DISK      OK             -       -       p4    -       465.651   
u0-2-1   DISK      OK             -       -       p5    -       465.651   
u0-3     RAID-1    INITIALIZING   16%     -       -     -       -         
u0-3-0   DISK      OK             -       -       p6    -       465.651   
u0-3-1   DISK      OK             -       -       p7    -       465.651   
u0/v0    Volume    -              -       -       -     -       1862.61

Я попытался перестроить массив с включенным и отключенным расписанием перестроения:

~ # ./tw_cli /c3 show rebuild                    

Rebuild Schedule for Controller /c3
========================================================
Slot    Day     Hour            Duration        Status
--------------------------------------------------------
1       Sun     12:00am         24 hr(s)        enabled
2       Mon     12:00am         24 hr(s)        enabled
3       Tue     12:00am         24 hr(s)        enabled
4       Wed     12:00am         24 hr(s)        enabled
5       Thu     12:00am         24 hr(s)        enabled
6       Fri     12:00am         24 hr(s)        enabled
7       Sat     12:00am         24 hr(s)        enabled

И я попытался включить и отключить расписание проверки.

~ # ./tw_cli /c3 show verify

Verify Schedule for Controller /c3
========================================================
Slot    Day     Hour            Duration        Status
--------------------------------------------------------
1       Sun     12:00am         24 hr(s)        enabled
2       Mon     12:00am         24 hr(s)        enabled
3       Tue     12:00am         24 hr(s)        enabled
4       Wed     12:00am         24 hr(s)        enabled
5       Thu     12:00am         24 hr(s)        enabled
6       Fri     12:00am         24 hr(s)        enabled
7       Sat     12:00am         24 hr(s)        enabled

Также обратите внимание, что попытка установить ignoreECC на выдачу ошибок:

~ # ./tw_cli /c3/u0 show ignoreECC
/c3/u0 Ignore ECC policy = off 

~ # ./tw_cli /c3/u0 set ignoreECC=on
Setting Ignore ECC Policy on /c3/u0 to [on] ... Failed.
(0x09:0x0005): (0x09:0x0005): Input/output error

Изменить 15.03.18:
Я подумал, что напишу, что произошло, на случай, если кто-то еще окажется в подобной ситуации. Я должен сказать, что застрявшая инициализация - это часть, которая действительно зациклила меня. Я знаю, что некоторые карты RAID повторно синхронизируют или проверяют массивы раз в неделю. (Или всякий раз, когда вы планируете их делать.) Я считаю, что произошло повторная синхронизация и проверка массивов, и один или несколько дисков отказали во время повторной синхронизации, что привело к остановке «инициализации».

Я отправил по электронной почте поддержку для этой карты RAID. (dcsg.support@broadcom.com) Просмотрели логи и диаграммы и ничего необычного не нашли. В конечном итоге они предложили: «Обновите прошивку. Перезагрузитесь после обновления. Это может помочь вывести его из состояния паузы ».

Я спросил их, безопасно ли обновлять прошивку в состоянии «инициализации», и уверены ли они, что перезагрузка в этом состоянии будет безопасной. Они никогда не возвращались к этому письму.

Поскольку я никому не доверяю, я сделал резервную копию всех данных и перезагрузил компьютер. Он вернулся с еще двумя плохими дисками. (Это были плохие диски на инициализируемых массивах RAID1.) К счастью, все они были на разных массивах RAID1, поэтому я мог заменить плохие диски. После перезагрузки и восстановления массивов, они инициализировались, и теперь все работает правильно.

Поэтому, если вы когда-нибудь увидите, что эта карта застряла при «инициализации», я бы сделал резервную копию данных, попытался бы перезагрузиться и молился, чтобы поврежденные диски были на разных зеркалах.

Удачи всем, кто может прочитать это в будущем!

Я подумал, что напишу, что произошло, на случай, если кто-то еще окажется в подобной ситуации. Я должен сказать, что застрявшая инициализация - это часть, которая действительно зациклила меня. Я знаю, что некоторые карты RAID повторно синхронизируют или проверяют массивы раз в неделю. (Или всякий раз, когда вы планируете их делать.) Я считаю, что произошло повторная синхронизация и проверка массивов, и один или несколько дисков отказали во время повторной синхронизации, что привело к остановке «инициализации».

Я отправил по электронной почте поддержку для этой карты RAID. (dcsg.support@broadcom.com) Просмотрели логи и диаграммы и ничего необычного не нашли. В конечном итоге они предложили: «Обновите прошивку. Перезагрузитесь после обновления. Это может помочь вывести его из состояния паузы ».

Я спросил их, безопасно ли обновлять прошивку в состоянии «инициализации», и уверены ли они, что перезагрузка в этом состоянии будет безопасной. Они никогда не возвращались к этому письму.

Поскольку я никому не доверяю, я сделал резервную копию всех данных и перезагрузил компьютер. Он вернулся с еще двумя плохими дисками. (Это были плохие диски на инициализируемых массивах RAID1.) К счастью, все они были на разных массивах RAID1, поэтому я мог заменить плохие диски. После перезагрузки и восстановления массивов, они инициализировались, и теперь все работает правильно.

Поэтому, если вы когда-нибудь увидите, что эта карта застряла при «инициализации», я бы сделал резервную копию данных, попытался бы перезагрузиться и молился, чтобы поврежденные диски были на разных зеркалах.

Удачи всем, кто может прочитать это в будущем!