На прошлых выходных мне пришлось заменить один жесткий диск в RAID 1 на контроллере PERC / 5i, потому что он сообщил об этом как об отказе.
После замены диска он проработал 5 дней, а потом контроллер стал жаловаться на новый диск:
# megaclisas-status
-- Controller informations --
-- ID | Model
c0 | PERC 5/i Adapter
-- Arrays informations --
-- ID | Type | Size | Status | InProgress
c0u0 | RAID1 | 465G | Degraded | None
-- Disks informations
-- ID | Model | Status
c0u0p0 | WD-WMAYP4753240WDC WD5003ABYX-01WERA1 01.01S02 | Failed
c0u0p1 | S13TJ1KQ503997 SAMSUNG HD502IJ 1AA01110 | Online, Spun Up
There is at least one disk/array in a NOT OPTIMAL state.
Так что теперь я немного подозрительно отношусь к контроллеру, трудно поверить, что такой новый диск выйдет из строя после такого короткого времени безотказной работы, или это так? Что я могу сделать, чтобы определить источник проблемы? И есть ли способ просто сбросить статус, в котором, по мнению контроллера, находится диск?
Если несколько дисков продолжают выходить из строя в одном и том же слоте, то, скорее всего, это объединительная плата, к которой они подключены, или, возможно, физический сбой в разъемах для этого конкретного слота. Можете ли вы использовать другой слот на объединительной плате?
Обратите внимание, что это все еще могут быть жесткие диски - если они не были правильно сохранены или транспортированы, они могут выйти из строя, даже если они совершенно новые.
Даже если возможно «сбросить» состояние контроллера, чтобы каким-то образом устранить эту ошибку, зачем вам это делать, не будучи уверенным, что вы устранили основную причину проблем? Весь смысл использования зеркалирования заключается в том, что вы можете быть уверены в том, что участники RAID будут согласованы, и у вас есть доказательства того, что здесь это маловероятно.
У меня была аналогичная проблема, и она сводилась к замене кабеля SCSI, который подключал карту RAID к отсеку для дисков. Я заменил карту, но это не решило проблему. Посмотрите на кабель. HTH