На моем сервере Ubuntu Linux есть массив mdadm (RAID 5) с четырьмя дисками SATA 2 ТБ, который время от времени «теряет» два диска. Перезагрузка и повторная сборка массивов до сих пор работали нормально.
Оборудование представляет собой Dell PowerEdge T20 с картой Exsys EX-3400, которая предоставляет четыре дополнительных порта SATA. Два из четырех дисков в массиве RAID подключены к карте Exsys, а оставшиеся два диска подключены к встроенным портам SATA (оставшиеся встроенные порты SATA используются для других дисков). Проверял наличие неисправностей дисков с помощью умных утилит, вроде все исправно.
Два диска, которые «теряются» из RAID, подключены к дополнительному контроллеру SATA, поэтому я заменил дополнительную карту другой (не помогло, симптомы те же). Заменил кабели SATA соответствующих дисков (не помогло, симптомы те же).
Кто-нибудь знает, что может быть источником этих проблем и что еще я мог бы проверить?
Я испробовал все вышеперечисленные советы. Даже переключение кабелей (питание, SATA) не изменило симптомов. Два диска, подключенные к дополнительному контроллеру SATA, по-прежнему терялись в массиве mdadm, поэтому я попробовал еще один контроллер SATA. Не повезло. В итоге я перестроил всю машину, чтобы можно было жить без дополнительного контроллера SATA. Массив mdadm уже несколько дней стабилен, и я надеюсь, что он останется стабильным.
Это не mdadm, mdadm только контролирует функциональность программного рейда на основе ядра.
Для повторной сборки массива перезагрузка не требуется. (Может быть, только если это ваш корневой раздел.)
Помещение соответствующих сообщений ядра (их можно получить с помощью dmesg
command) очень поможет, хотя я могу почти наверняка сказать, в чем причина вашей проблемы. И, вероятно, дело в блоке питания, хотя вы говорите, что проблема только в подключенном контроллере.
Вы можете легко проверить это, если это проблема с питанием: подключите кабели для передачи данных только между дополнительным SATA и исходным. Проблемы случаются исключительно на дополнительном контроллере?
Если нет: проблема с питанием, вам нужно найти решение для источника питания. В «нормальном» оборудовании я бы купил блок питания получше, в вашем случае предлагаю задать новый, более специфичный для оборудования вопрос.
Если проблемы возникают исключительно, всегда, в каждой конфигурации кабеля питания / данных, на дополнительной карте: значит, проблема, вероятно, связана с картой. Попробуйте купить новый или другой тип.
P.s. Вы можете подключать кабели питания и данных по своему усмотрению, программный рейд linux умен и может распознавать аппаратные устройства (он делает это автоматически сгенерированными ключами в суперблоке рейда).