Назад | Перейти на главную страницу

Почему вышел из строя наш рейдовый массив?

У нас есть старый HP DL380 G3 с 6x36GB Ultra320 SCSI дисками в массиве RAID 10. Мы внимательно следим за накопителями, поскольку они старые - все индикаторы предаварийной готовности SMART подтвердили, что все в порядке. Затем, через 4 дня, вышли из строя 2 диска (на самом деле диски могли и не выйти из строя физически, но на двух дисках есть поврежденные данные). Как такое могло случиться? Я не очень верю в совпадения и случайности.

Я могу поверить в один сбой диска, но несколько сбоев заставляют меня думать, что происходит что-то еще. Я слышал, что объединительная плата SCSI на DL380 может выйти из строя - может ли кто-нибудь подтвердить это на собственном опыте? Стоит ли заменить объединительную плату SCSI? Должны ли мы заменять все диски при восстановлении массива?

Изменить: я просмотрел некоторую статистику, которую мы недавно записали, о накопленных часах работы на дисках в этом массиве. У двух отказавших дисков было 0,6 и 2,7 года работы. Мне кажется, что это опровергает теорию о том, что диски просто вышли из строя с одинаковой скоростью и поэтому вышли из строя очень близко друг к другу. Разве накопленные данные о часах работы не заслуживают большего доверия, чем SMART?

hardware

Быстрая последовательная неисправность нескольких дисков не такая уж редкость, как думают люди. Неудачи обычно следуют за тем, что называется Изгиб ванны - высокая начальная скорость, так как производственные дефекты нагружаются до отказа, снижаясь до относительно низкого уровня в течение типичного срока службы приводов, а затем снова повышаясь по мере износа деталей по мере прохождения расчетного срока службы. Приводы механические, а приводы серверов работают постоянно.

Когда один диск выходит из строя, вероятность другого сбоя все еще немного выше, но такие сбои обычно сопровождаются повышенным стрессом, часто, как это ни парадоксально, вызванным процессом восстановления RAID, который заставляет диски выполнять довольно много интенсивных операций ввода-вывода.

Наконец, SMART не имеет хорошей репутации как надежный индикатор надежности, есть некоторые преимущества, но в целом это не очень хорошо - есть очень хорошие результаты долгосрочного исследования от Google, которые вы можете найти. здесь (Тенденции отказов при большом количестве дисков).

Основное сообщение заключается в том, что, когда вы используете пакет RAID в течение длительного времени, вы подвергаетесь возрастающему риску, который выше, чем многие ожидают (количество отчетов о сбоях нескольких дисков здесь является свидетельством этого). Второе сообщение заключается в том, что RAID - это то, что можно использовать для повышения доступности в среднем, но всегда убедитесь, что у вас есть приемлемая стратегия резервного копирования на случай, если вы один из тех, кому не повезло.

G3 сейчас довольно старый, я думаю, вы видите другую сторону кривой кривой наработки на отказ.

Вы проверяли свои записи экологического мониторинга? Какие-либо события, связанные с питанием или охлаждением?

У меня нет опыта работы с оборудованием HP, поэтому я не могу об этом говорить. Но SMART не особенно хорош для прогнозирования сбоев дисков.