Каковы шансы, что два диска RAID5 выйдут из строя в один и тот же день?

У меня Perc H710 настроен как RAID5 с 4 подключенными жесткими дисками Seagate 7200 об / мин емкостью 3 ТБ.

Два месяца назад я получил эти ложные ошибки, которые заставили меня поверить, что мой контроллер был плохим.

Я заменил контроллер, и все работало нормально, пока несколько дней назад я не начал испытывать похожие ошибки. Диски 00 и 03 были зарегистрированы как неисправные, отключенные или отсутствующие. Dell прислала мне еще один (третий) RAID-контроллер, и теперь в perc bios написано:

Drive 00 missing
Drive 03 missing

Поэтому я вытащил диски и исследовал их по отдельности с помощью дисковой утилиты. Действительно, диск 00 и диск 03 имеют битые сектора. Дисковая утилита Linux, которую я использовал, говорит, что на диске 00 «несколько сбойных секторов», а на диске 03 «много сбойных секторов».

Шутки в сторону? Два диска отключились в один день?

С другой стороны, возможно ли, что один диск некоторое время назад вышел из строя, а затем вышел из строя другой, потому что он постоянно вращается, пытаясь восстановить первый ... или что-то в этом роде?

Невозможно точно сказать, каковы шансы того, что X дисков выйдет из строя через Y промежуток времени, но это является Можно с уверенностью сказать, что отказы дисков не являются полностью независимыми, как это принято считать. Множественные отказы дисков в одном и том же массиве в непосредственной близости по времени - довольно частое явление.

Менее месяца назад на одном из наших производственных серверов (в том же наборе RAID) за одни выходные вышли из строя 4 диска, один за другим. Почти как только мы заменили один диск, другой вышел из строя ... мы в конечном итоге заменили все 7 дисков на всякий случай.

Одна из причин, как вы упомянули, заключается в том, что процесс восстановления требует интенсивного использования диска, поэтому существует нетривиальный шанс, что диск, балансирующий на грани выхода из строя, будет вытолкнут за край и выйдет из строя в результате повышенного напряжения. он не предоставляет данные для восстановления нового диска.

Еще один фактор, который следует учитывать, заключается в том, что все элементы в массиве RAID, как правило, находятся в одной физической среде и подвержены очень похожим физическим нагрузкам (нагрев, вибрация, колебания мощности и т. Д.), Что, как правило, приводит к более высокой вероятности время сбоев примерно такое же, как у дисков в разных средах.

И, если вы похожи на большинство людей, вы, вероятно, только что купили 4 идентичных диска из одного и того же места, а в итоге получили 4 диска из одной партии, в результате чего 4 диска имеют идентичные производственные характеристики (любые дефекты или аномалии во время этого производства batch, вероятно, распределяются между всеми четырьмя дисками). Таким образом, идентичные диски в идентичной среде ... имеет смысл, что они могут иметь другие похожие характеристики, например, когда они выходят из строя.

Наконец, существует тот факт, что отказы дисков обычно не распределяются (как в кривой колокола). У них, как правило, выше процент отказов в начале своей жизни (младенческая смертность) и после длительного периода времени, когда они изнашиваются и умирают из-за физических нагрузок, которым они подвергались, с относительно более низким уровнем провал в середине (кривая ванны).

Итак, да, сбои нескольких дисков в одном массиве RAID происходят с некоторой регулярностью, и это одна из причин, по которой вам всегда нужны хорошие резервные копии.

На самом деле это довольно распространено, и основная причина, по которой часто советуют покупать жесткие диски из разных партий в одном наборе RAID. Одинаковые партии часто имеют одинаковые недостатки или пороги.

Кроме того, сбои не всегда являются результатом простой старости диска, они также могут быть вызваны минимальными скачками напряжения, неожиданной нагрузкой на несколько минут, идентичными периодами сна и т. Д. Таким образом, шансы, конечно, меньше, чем у одного сбой диска, но не этот процент в квадрате. Кроме того, не забывайте, что отказ одного диска означает повышенную нагрузку на остальные 3, потому что они должны работать вместе, чтобы пересчитать недостающие данные. Это также может просто подтолкнуть другой диск за край. И по тому же вопросу восстановление после замены диска - это очень интенсивная операция, затрагивающая каждый сектор всех дисков, что означает еще одно рискованное время для дисков.

Наконец, это не всегда может быть диск. Однажды у меня был набор RAID-5, потому что контроллер считал, что 3 из 4 дисков были удалены одновременно на несколько минут. Конечно, это был сбой контроллера, но он все равно обнаруживался в журналах, как 3 диска, умирающих в течение минуты после друг друга.

Да, второй сбой из-за нагрузки на диск из-за перестройки (и необработанного объема данных, считываемых для перестройки, с относительно высокими шансами ошибки чтения на современных плотных дисках) - одна из причин того, что RAID-5 несет определенный риск.

Хотя похоже, что RAID-контроллер окончательно не пометил ни один из дисков как неисправный, а просто «отсутствует», это может быть тот случай, когда вам нужно использовать свои резервные копии.

Проблема, вероятно, в том, что на одном из ваших дисков какое-то время был плохой блок, но он остался незамеченным, так как ни одна программа не читала из этого сектора.

Потом на другом диске был сбойный сектор. Один из них был прочитан, и контроллер удалил этот диск или попытался восстановить его. Затем ему нужно было прочитать весь второй диск, и он обнаружил второй сбойный сектор на втором диске. И вот ваш RAID.

Вот почему так важно периодически проверять диски на наличие поврежденных секторов, чтобы они не оставались незамеченными в течение длительного времени. Есть утилита - smartd из smartmontools пакет - который может периодически проверять все диски на наличие сбойных блоков во время простоя. Но не все контроллеры позволяют отправлять SMART-команды на диски - поэтому я предпочитаю программный RAID.

Диски исправят (переназначат) поврежденные сектора, когда они будут снова записаны. Итак, если вы знаете, какой сектор плохой (smartctl -a могу сказать вам), и вы можете проверить, какой файл использует этот сектор, вы можете переписать этот файл из резервных копий, чтобы диск снова стал исправным. Но не пытайтесь его прочитать, так как неудачное чтение может вынудить диск выйти из массива.