TL; версия DR
А теперь длинная подробная версия:
У меня есть массив RAID10 (8x1TB) на карте 3ware 9690, работающей на сервере Ubuntu 1110.
Было обновление ядра, поэтому я запланировал перезагрузку, после которой массив был недоступен. Я проверил статус «умер» диск в массиве, но контроллер перевел весь массив в «неработоспособное» состояние, а не просто деградировал (в чем смысл RAID сейчас ;-).
После извлечения «мертвого» диска я провожу быстрый тест, чтобы найти его полностью работоспособным без дефектных секторов.
Я пытаюсь вставить диск обратно, но массив по-прежнему отмечает диск как деградированный (вспоминая серийный номер или что-то в этом роде ??), а весь массив как неработающий ...
Поэтому я заменяю его на заведомо рабочий диск (не той же емкости, но большей - все равно должен работать) и инициирую восстановление с новым диском в качестве замены. Это немедленно завершается ошибкой с ошибкой «(0x0B: 0x0033): Unit занято: не удалось начать восстановление на модуле 0». Устройство не должно быть занято, поскольку оно не смонтировано (сама карта указана с lshw, а массив, который она предоставляет, нет).
Я сейчас почти в тупике, я не понимаю, как у меня может случиться сбой одного диска на RAID10, который делает весь массив недоступным, деградировавшим, я могу понять, но недоступным ?? Не думаю, что контроллер неисправен, так как до перезагрузки он был полностью исправен.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
Обратился в службу поддержки LSI и к одному из их техников 2-го уровня, который сумел написать сценарий и взлом прошивки, чтобы привести массив в обычное ухудшенное состояние.
После этого было обычным делом присоединить новый диск к массиву и перестроить.