Назад | Перейти на главную страницу

2 диска SAN вышли из строя за один и тот же период ночи

У нас есть 2 сервера HP Lefthand SAN в отдельных комнатах для обработки данных. На прошлой неделе в каждой из сетей SAN произошел сбой 1 жесткого диска. Они были на разных позициях в SAN. Обе комнаты данных очень хорошо защищены от проблем с питанием с помощью ИБП.

Есть идеи, что могло на это повлиять?

Спасибо, Карл

storage-area-network hard-drive

Звучит странно, но были ли это диски горячего резерва?

Я видел последовательные (хотя и не в один и тот же сценарий) отказы в ситуациях, когда «горячий» резерв запускается и должен действовать. Если эта запасная часть какое-то время простаивала, ее использование может вызвать обнаружение уже существующих проблем. По крайней мере, это моя теория, и я ее придерживаюсь! знак равно

Для меня это звучит довольно случайно, у нас есть люди, которым мы платим за смену дисков, неважно, какой марки / модели / типа / скорости / конфигурации они диски, просто не работают в корпоративных средах где угодно, пока их производители разглядеть. Однако следите за ними.

Похоже, мне пока не повезло. 24 диска, два выходят из строя за одну неделю? Прискорбно, но такое бывает. Особенно, если речь идет о дисках со скоростью вращения 7,2 тыс. Об / мин, не предназначенных для круглосуточной работы. Я не вижу дисков емкостью 500 ГБ в таблицах QuickSpecs для текущих продуктов LeftHand, но я знаю, что HP продала диски SATA емкостью 500 ГБ 7.2K, так как у меня их много в MSA1500.

Если это действительно те же диски, что и у меня, то я совсем не удивлен. Они пришли из более ранней модели дисков SATA, которые были не так надежны, как их аналоги с SAS / SCSI, поэтому показали здесь более высокую частоту отказов. Однако по прошествии первого года плохие яблоки вырвались наружу, и с тех пор у меня не было никаких неудач. Но какое-то время я проходил там по одному в месяц. LUN на 5,5 ТБ - самые большие, которые я бы предложил использовать с этими дисками, так как время восстановления (как вы, вероятно, уже знаете) занимает ОЧЕНЬ много времени.

Если это действительно диски SAS емкостью 450 ГБ и 15 КБ, это гораздо менее вероятно, но все же в пределах возможного. Иногда такое случается.

В более широком смысле, я знаю, что HP любит продавать узлы LeftHand парами. Если предположить, что оба этих устройства были приобретены одновременно, вероятность того, что все диски принадлежат одинаковым партиям, довольно высока. Как заметил Крис С., случаются плохие партии. Поскольку для восстановления наборов RAID5 5,5 ТБ может потребоваться неделя (у меня нет LeftHand SAN для игры, но я знаю, что для массивов на основе MSA это занимает неделю), и в это время диски находятся под гораздо большей нагрузкой, чем нормально, это может вызвать каскады отказов. Однако вы сказали «на прошлой неделе», что говорит о том, что они уже некоторое время занимаются восстановлением и просто ищут подозрительное расположение звезд, которое в первую очередь привело к сбоям. Если они пережили процесс перестройки, маловероятно, что у вас серьезно плохая партия, может быть, только немного плохая. Но следите за частотой отказов.

2 раза в неделю - это показатель, а не тенденция. К сожалению.

На ум приходят несколько вещей:

все ваши диски используют одну и ту же среду. Если когда-либо происходило событие, вызывающее перегрузку дисков, ему подвергались все диски в этой SAN. Обращались ли с полкой грубо, когда она была собрана, доставлена, установлена? Были ли случаи перегрева в центре обработки данных?
Это диски одной производственной партии? Возможно, они были сделаны, когда у кого-то был плохой случай понедельника?
Когда один диск выходит из строя, остальные диски в этом массиве испытывают нагрузку, потому что контроллер читает / записывает как сумасшедшие, чтобы восстановить четность. Если бы были другие приводы, которые уже были маргинальными, это внезапное изменение в схемах использования могло бы подтолкнуть их к краю. По мере увеличения размеров дисков время восстановления увеличивается, и проблема усугубляется.

Были ли они куплены одновременно? Могут быть из одной партии HD и, следовательно, иметь аналогичные производственные аномалии. В этом случае следует как можно скорее заменить эти диски, прежде чем другие выйдут из строя.

Сбои дисков в системах хранения, как правило, представляют собой превентивные сбои дисков. BIOS HDD отслеживает количество ошибок чтения или записи в течение определенного периода времени (они могут происходить без прерывания обслуживания), и после превышения порогового значения система хранения отмечает диск как неисправный, прежде чем он фактически станет непригодным для использования (для предотвращения повреждения данных). Возможно, в вашей системе хранения есть запланированная проверка диска для профилактического обслуживания. Это могло объяснить, что диски были отмечены как неисправные примерно в то же время.