Назад | Перейти на главную страницу

Может ли сбой при настройке диска RAID 4, если выйдет из строя только 1 жесткий диск?

Я веб-разработчик. У меня нет большого опыта работы с оборудованием. По этой причине я использую управляемые серверы.

Этим утром один из дисков в нашей установке вышел из строя. Однако весь сайт вышел из строя. Я спросил своего веб-хостинга, что случилось, и он ответил, что жесткий диск вышел из строя таким образом, что RAID-контроллер не может работать должным образом. Массив был настроен как RAID 4.

Вы когда-нибудь видели такое раньше? Является ли это возможным?

Спасибо за любую помощь в этом, ребята. Мне нужно знать, честен ли мой веб-хостинг со мной.

Скорее всего, ваш провайдер использует жесткие диски, которые не предназначены для использования в RAID. В эту категорию попадают обычные потребительские диски SATA.

Вероятная проблема заключается в том, что на диске начались неисправимые ошибки чтения (URE). Когда это происходит с потребительским диском, он сидит там и повторяет операцию чтения (обычно в течение 30-60 секунд), пока не завершится. RAID будет ждать, пока диск сообщит об ошибке (30-60 секунд). Таким образом, простой запрос нескольких секторов может легко привести к остановке сервера, в то время как отказавший диск выполняет эти операции чтения-повтора.

Диски, предназначенные для массивов RAID, имеют функцию восстановления после ошибок с ограничением по времени (для дисков SATA). TLER быстро сообщает о сбоях контроллерам, чтобы контроллер мог разумно реагировать на такие сбои (в основном разумно, надеюсь). SCSI (SAS тоже) работают несколько иначе. Набор команд SCSI позволяет контроллеру определять различные ограничения усилий по восстановлению дисков (ВЫБОР РЕЖИМА: RW ERR RECOVERY). Контроллер RAID должен настроить диски на быстрый отказ, затем контроллер может проверить, считает ли диск, что он работает правильно, с помощью команды TUR, вывести диск из массива, если есть условие проверки.

Да, это возможно, даже в сценариях, где вы думаете, что массив должен пережить сбой.

Некоторые возможности относительно того, почему массив не работает:

  • Из строя вышло больше дисков, чем может выдержать режим RAID. Например:
    • RAID 0 (чередование) не выдерживает отказов дисков.
    • RAID 1 может выдержать отказ всех дисков, кроме одного.
    • RAID 4/5 может выдержать отказ 1 диска.
    • RAID 6 может выдержать отказ 2 дисков.
    • RAID 10 может выдержать отказ до 50% дисков, в зависимости от того, какие из них вышли из строя.
  • Ошибка в программном обеспечении RAID или прошивке контроллера.
  • Ошибка пользователя.
    • Кто-то вытащил слишком много дисков.
    • Кто-то вытащил диск и не заменил его, а другой диск впоследствии вышел из строя.
    • Мониторинг за массивом не велся, что приводило к отказу большего количества дисков, чем могло сохраниться.
  • Известно, что дешевые контроллеры с дисками потребительского класса выходят из строя даже в сценариях, которые в противном случае оставались бы безотказными.
    • Накопитель потребительского уровня будет почти бесконечно пытаться прочитать плохой сектор, пока не получит хорошее чтение. Дешевый контроллер практически бесконечно будет ждать, пока такой привод вернет результат. Ожидание может быть настолько долгим, что операционная система откажется. Затем при перезагрузке диски не реагируют достаточно быстро на контроллер, и предполагается, что массив неисправен.
    • С другой стороны, диск корпоративного уровня быстро откажется, позволяя контроллеру извлекать данные с другого диска. Кроме того, хороший контроллер пометит диск, которому требуется слишком много времени для ответа, как неисправный и продолжит работу.

Если бы это была реализация RAID 0, то, безусловно, при выходе из строя одного диска вы потеряете массив и все данные с ним.

Я видел, как ошибки микропрограммы приводили к тому, что RAID-массив не работал целиком, когда диск выходит из строя или когда он начинает сообщать о неизбежном отказе. Извините, мне не на что конкретно указать, но да, такое может случиться. Не как часть спецификации RAID, конечно, это определенно ошибка.

Да, это возможно. Это не предполагаемый должно произойти, но это, безусловно, может. Введите URE (неустранимая ошибка чтения), а также ошибки контроллера, ошибки микропрограммного обеспечения и т.п.

Без дополнительной информации (которую, вероятно, не предоставит вам ваш хост), невозможно сказать однозначно так или иначе, но любой, кто работал с большим количеством RAID-массивов, имел опыт, когда весь массив был потерян или разбился, когда он не должно быть.

(И кстати, RAID4 не очень часто используется уровень RAID, но должен выдержать потерю любого драйва. Однако это не значит, что так будет всегда.)

У меня было много отказов жестких дисков, когда отказала не механика, а электроника, составляющая интерфейс связи. Из-за своего небольшого размера многие электронные компоненты очень чувствительны даже к незначительным электрическим сбоям (это может произойти, когда поблизости включаются / выключаются большие двигатели кондиционера и т. Д., А источник питания стоит немного дешевле).

Когда внутренние преобразователи питания или конденсаторы (буферы накопления энергии) сгорают, электрические сигналы, генерируемые на внешних разъемах жесткого диска, могут и будут выходить за пределы спецификации. Поскольку диск подключается к контроллеру с помощью медных проводов, и часто в серверах многие диски используют кабельное соединение, чтобы упростить установку и уменьшить беспорядок, это может легко нарушить или даже навсегда разрушить любое количество смежных компонентов.

Кстати, это мало общего с ценообразованием. Это правда, что дорогие контроллеры и приводы МОГУТ использовать детали, которые более устойчивы к ненормальным условиям или имеют лучшее экранирование, и что с бюджетными компонентами вы с большей вероятностью получите нестандартные детали. Но я регулярно находил одинаковые конденсаторы на накопителе за 50 и 500 долларов. И если отказавший жесткий диск напрямую направляет 12 Вольт от источника питания к разъему SATA из-за того, что что-то закоротило, ваш RAID-контроллер будет поджариваться, независимо от того, сколько цифр было на ценнике.

Это не то, что обычно бывает, но, по моему опыту, это определенно не редкость.

Да, думаю, весь рейд может выйти из строя после отказа одного диска. Первый отказавший диск будет отключен контроллером, и рейд все равно будет работать нормально. Но когда неисправный диск заменяется, контроллер начинает восстанавливать рейд. Если есть скрытая не обнаруженная проблема чтения на одном из других оставшихся дисков, восстановление неисправного диска может привести к отключению большего количества дисков (когда проблемы чтения обнаруживаются при восстановлении рейда), что снова приведет к тому, что весь рейд будет отключен. потерпеть поражение.