HP DL370 G5 hpacucli показывает 2 диска как прогнозируемый отказ - безопасно ли пытаться восстановить 1 на 1?

У меня есть:

Openfiler SAN ML370 G5 Smart Array 6400 слот 1 Логический диск 2 массива B представляет собой массив RAID5, состоящий из 6 жестких дисков по 148 ГБ 10 тыс. С возможностью горячей замены, что делает 680 ГБ без запасных

В прошлую пятницу отключилось электричество, эту машину просто подключили к стене и она сильно вышла из строя. Когда он вернулся в рабочее состояние, диски 1 и 4 диска 0-5 изменились на красный мигающий индикатор неисправности. Таблица из руководства по массиву показывает, что, поскольку для этого диска был получен прогнозируемый сбой, замените его как можно скорее. В командной строке утилита hpacucli выдает то же сообщение; Прогнозируемый отказ. Индикаторы активности мигают нормально. В таблице неисправностей указано, что привод не «отказал», пока не загорится индикатор неисправности.

Во время всего этого, а теперь и через неделю система не работает, и пока никто из пользователей не сообщил о каких-либо проблемах - все хосты / виртуальные машины ESX используют этот SAN и все еще работают нормально, и я вручную сделал резервную копию всего в массиве и новых дисках появился сегодня. Так что я могу попробовать несколько вещей без особых усилий, но я уверен, что хотел бы просто заменить диски и восстановить работу, если я буду осторожен.

Обычно я бы предположил, что с помощью прогнозируемого сбоя я мог бы уйти от замены их по одному, позволяя им перестраивать по одному, и все будет в порядке, НО когда я запускаю hpacucli, я получаю следующий вывод на LD

Массив: B Тип интерфейса: Параллельный SCSI Неиспользуемое пространство: 0 МБ Состояние: ОК

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

Итак, статус в порядке, но меня напугала инициализация четности. Любые указания по процедуре успешного восстановления или рекомендации типа «все данные в любом случае подозреваются, просто замените неисправные диски, сделайте из него новый массив и восстановите, поскольку у вас есть резервная копия». Я понимаю, что это риск, несмотря ни на что. Следует ли перезапускать устройство, прежде чем что-либо заменять?

Полный вывод hpacucli внизу.

Похоже, что если этот прогнозируемый сбой - это просто накопление ошибок SMART, он все равно будет иметь четность и перестраиваться, может быть, медленно?

Большое спасибо за любое руководство, Мир!

--- полный hpacucli ---

Массив: B Тип интерфейса: Параллельный SCSI Неиспользуемое пространство: 0 МБ Состояние: ОК

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

  physicaldrive 1:0
     SCSI Bus: 1
     SCSI ID: 0
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY83F3Y00007442557Q
     Model: COMPAQ  BD14685A26
  physicaldrive 1:1
     SCSI Bus: 1
     SCSI ID: 1
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY8393700007345XU2M
     Model: COMPAQ  BD14685A26
  physicaldrive 1:2
     SCSI Bus: 1
     SCSI ID: 2
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NWGY00007524BFV1
     Model: COMPAQ  BD14685A26
  physicaldrive 1:3
     SCSI Bus: 1
     SCSI ID: 3
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9PA1N00007523W3DP
     Model: COMPAQ  BD14685A26
  physicaldrive 1:4
     SCSI Bus: 1
     SCSI ID: 4
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY72WR9000075216UNS
     Model: COMPAQ  BD14685A26
  physicaldrive 1:5
     SCSI Bus: 1
     SCSI ID: 5
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NT3F000075231R9V
     Model: COMPAQ  BD14685A26

У меня была точно такая же проблема на DL380 G7 P410i RAID5, и я только что пережил очень неприятный опыт поддержки HP, когда я ни к чему не пришел, имея дело с несколькими людьми (из Индии), которые понятия не имели, что происходит, и которые также не хотели чтобы обострить проблему. Справочный материал также плохо объясняет это состояние ошибки.

В любом случае, я решил проблему. Насколько я могу судить, операция «восстановления» не обязательно совпадает с «инициализацией четности». В моем случае у меня был неисправный жесткий диск с множеством восстановленных ошибок чтения, но на самом деле он не был отмечен массивом как неисправный. Вопрос, конечно, был: «Если я заменю этот диск, логический диск выйдет из строя, потому что, возможно, четность не была правильно записана?» а также «Почему, черт возьми, агент управления HP не сообщил ни о чем неправильном?». После того, как вы сделали резервную копию и вытащили неисправный диск, логический диск продолжал работать. Я вставил новый диск, и статус логического диска изменился на «Восстановление». Когда восстановление завершилось, статус логического диска снова изменился на «ОК», но инициализация четности по-прежнему не удалась. Я не знаю, как это вообще произошло, но, возможно, это произошло из-за ошибок на моем неисправном диске, как было предложено выше.

Итак, наконец, я сделал «ctrl slot = 0 logicaldrive 1 modify raid = 5» из ACU cli, и это перезапустило инициализацию четности, которая, наконец, завершилась успешно.

Скопируйте данные из массива, пока вы можете, или попробуйте сделать резервную копию соответствующих данных. Вы можете выключить (выключить диски) и снова включить, чтобы проверить, сможете ли вы ускорить процесс восстановления. Заменяйте диск по одному. Следите за статусом «ожидание восстановления». Если вы это видите, это означает, что восстановление RAID 5 не может быть продолжено (обычно это ошибка чтения на другом диске в массиве).

Инициализация четности подробно описана Вот и Вот.

Background RAID creation 
When you create a RAID 1, RAID 5, or RAID 6 logical drive, the Smart Array controller must build the 
logical drive within the array and initialize the parity before enabling certain advanced performance 
techniques. Parity initialization takes several hours to complete. The time it takes depends on the size of the 
logical drive and the load on the controller. The Smart Array controller creates the logical drive, initializing 
the parity whenever the controller is not busy. While the controller creates the logical drive, you can access 
the storage volume which has full fault tolerance.

Какой корпус вы используете для этих дисков? MSA30?

100% безопасно? нет. Никакая операция по восстановлению массива не является полностью безопасной, особенно с RAID 5. Будет ли она работать? Наверное.

Ваша проблема в том, что единичный сбой чтения во время восстановления приведет к сбою всего тома. И вы собираетесь сделать это дважды, в том числе один раз с диском, у которого уже есть проблемы.

В идеале в такой ситуации вы должны снять систему с производства, сделать полную резервную копию, удалить том RAID, сменить диски, заново создать массив и восстановить резервную копию.

Если вы действительно не можете выдержать такое большое время простоя на этом массиве, вам следует попробовать заменить каждый диск отдельно и каждый раз ждать завершения перестройки, но НЕ делайте этого, не имея сначала полной резервной копии, и, если вы собираетесь сохраняйте эту систему активной во время перестройки, убедитесь, что вы сначала предупредили пользователей, что они могут потерять все данные после даты последней резервной копии и что вы получили их одобрение (в конце концов, это их данные, и они должны принимать решение какой риск они предпочли бы: безопасный, но показывающий время простоя или небезопасный, но потенциально бесперебойный).