Назад | Перейти на главную страницу

PERC H200i «игнорирует» некоторые диски в RAID 10, что приводит к медленному вводу-выводу

У меня есть Dell PE T710 с PERC H200i, который имеет один массив из 6 дисков SATA по 500 ГБ +1 горячий резерв.

Этот сервер (и его диски) работают безупречно уже несколько лет. Сегодня я начал получать предупреждения о большом времени ожидания ввода-вывода на этом сервере. Я исследовал, и дисковый массив был необъяснимо медленным. Не было приложений, нажимающих больше, чем минимальный уровень ввода-вывода, и примерно при 22 МБ / с линейного чтения или записи (с использованием dd) он достигал насыщения, и я начинал видеть 100% ожидания ввода-вывода в верхней части. Ранее в той же ситуации этот массив имел скорость 250 МБ / с.

Уже несколько недель ничего не менялось ни в аппаратном, ни в программном обеспечении.

В любом случае это похоже на аппаратную проблему: наблюдая за массивом физически, я вижу активность (мигающие светодиоды) только на 4 из 6 дисков в массиве. Однако в OMSA массив считается полностью работоспособным. Перезагрузился, зашел в БИОС контроллера и снова массив судя по всему в порядке. Я обновил прошивку до 07.03.06.00 A10, и это не помогло.

«Мигание» светодиодных индикаторов жесткого диска через OMSA действительно сработало, так что это не значит, что это просто плохой светодиод на явно нефункциональных дисках.

Затем я начал проверку целостности массива, и пока он не жаловался, но я все еще вижу активность только на 4 из 6 дисков.

Я никогда раньше не видел такого, когда RAID-контроллер, казалось бы, перестает использовать 2 диска, одновременно сообщая об этих дисках как о исправных и как о части массива.

Я предполагаю, что мне нужно заменить H200 и / или эти диски.

Однако мне любопытно узнать, видел ли кто-нибудь такое поведение раньше и есть ли альтернативное решение.

Есть ли способ добиться прозрачности фактического использования отдельного диска с помощью H200?

Спасибо за уделенное время.

Редактировать: Эти диски сертифицированы Dell, однако их прошивка никогда не обновлялась и была выпущена примерно в 2013 году.

Замена двух «не отвечающих» дисков решила проблему. Два набора зеркал восстановлены, и теперь все 6 дисков показывают активность надлежащим образом. После завершения перестроения линейная скорость записи составила 257 МБ / с, что и должно быть обычным для этого массива.

Однако при тестировании в корпусе USB два «неисправных» диска не имели ошибок SMART и давали скорость чтения / записи около 100 МБ / с, что примерно соответствует тому, что я ожидал для дисков SATA 7200 об / мин. Следовательно, я не могу сказать, что они не смогли, а скорее контроллер перестал их использовать.

Я не нашел способа [в CentOS] контролировать использование отдельных дисков, кроме как физически смотреть на светодиоды.