Назад | Перейти на главную страницу

Восстановление массива на 3ware 9690SA-8I

TL; версия DR

  1. Массив RAID10 работает нормально
  2. Перезагрузите сервер в рамках обслуживания
  3. Массив неработоспособен (нет доступа вообще)
  4. Журналы контроллера говорят, что один диск неисправен
  5. Удалить диск и протестировать - сбойных секторов не обнаружено
  6. Сделайте ошибку, замените диск заведомо исправным
  7. Контроллер не перестраивает массив на новый диск
  8. Даже при отказе всего 1 диска контроллер сделал недоступным весь массив RAID10

А теперь длинная подробная версия:

У меня есть массив RAID10 (8x1TB) на карте 3ware 9690, работающей на сервере Ubuntu 1110.

Было обновление ядра, поэтому я запланировал перезагрузку, после которой массив был недоступен. Я проверил статус «умер» диск в массиве, но контроллер перевел весь массив в «неработоспособное» состояние, а не просто деградировал (в чем смысл RAID сейчас ;-).

После извлечения «мертвого» диска я провожу быстрый тест, чтобы найти его полностью работоспособным без дефектных секторов.

Я пытаюсь вставить диск обратно, но массив по-прежнему отмечает диск как деградированный (вспоминая серийный номер или что-то в этом роде ??), а весь массив как неработающий ...

Поэтому я заменяю его на заведомо рабочий диск (не той же емкости, но большей - все равно должен работать) и инициирую восстановление с новым диском в качестве замены. Это немедленно завершается ошибкой с ошибкой «(0x0B: 0x0033): Unit занято: не удалось начать восстановление на модуле 0». Устройство не должно быть занято, поскольку оно не смонтировано (сама карта указана с lshw, а массив, который она предоставляет, нет).

Я сейчас почти в тупике, я не понимаю, как у меня может случиться сбой одного диска на RAID10, который делает весь массив недоступным, деградировавшим, я могу понять, но недоступным ?? Не думаю, что контроллер неисправен, так как до перезагрузки он был полностью исправен.


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

Обратился в службу поддержки LSI и к одному из их техников 2-го уровня, который сумел написать сценарий и взлом прошивки, чтобы привести массив в обычное ухудшенное состояние.
После этого было обычным делом присоединить новый диск к массиву и перестроить.