У меня есть Dell PE T710 с PERC H200i, который имеет один массив из 6 дисков SATA по 500 ГБ +1 горячий резерв.
Этот сервер (и его диски) работают безупречно уже несколько лет. Сегодня я начал получать предупреждения о большом времени ожидания ввода-вывода на этом сервере. Я исследовал, и дисковый массив был необъяснимо медленным. Не было приложений, нажимающих больше, чем минимальный уровень ввода-вывода, и примерно при 22 МБ / с линейного чтения или записи (с использованием dd) он достигал насыщения, и я начинал видеть 100% ожидания ввода-вывода в верхней части. Ранее в той же ситуации этот массив имел скорость 250 МБ / с.
Уже несколько недель ничего не менялось ни в аппаратном, ни в программном обеспечении.
В любом случае это похоже на аппаратную проблему: наблюдая за массивом физически, я вижу активность (мигающие светодиоды) только на 4 из 6 дисков в массиве. Однако в OMSA массив считается полностью работоспособным. Перезагрузился, зашел в БИОС контроллера и снова массив судя по всему в порядке. Я обновил прошивку до 07.03.06.00 A10, и это не помогло.
«Мигание» светодиодных индикаторов жесткого диска через OMSA действительно сработало, так что это не значит, что это просто плохой светодиод на явно нефункциональных дисках.
Затем я начал проверку целостности массива, и пока он не жаловался, но я все еще вижу активность только на 4 из 6 дисков.
Я никогда раньше не видел такого, когда RAID-контроллер, казалось бы, перестает использовать 2 диска, одновременно сообщая об этих дисках как о исправных и как о части массива.
Я предполагаю, что мне нужно заменить H200 и / или эти диски.
Однако мне любопытно узнать, видел ли кто-нибудь такое поведение раньше и есть ли альтернативное решение.
Есть ли способ добиться прозрачности фактического использования отдельного диска с помощью H200?
Спасибо за уделенное время.
Редактировать: Эти диски сертифицированы Dell, однако их прошивка никогда не обновлялась и была выпущена примерно в 2013 году.
Замена двух «не отвечающих» дисков решила проблему. Два набора зеркал восстановлены, и теперь все 6 дисков показывают активность надлежащим образом. После завершения перестроения линейная скорость записи составила 257 МБ / с, что и должно быть обычным для этого массива.
Однако при тестировании в корпусе USB два «неисправных» диска не имели ошибок SMART и давали скорость чтения / записи около 100 МБ / с, что примерно соответствует тому, что я ожидал для дисков SATA 7200 об / мин. Следовательно, я не могу сказать, что они не смогли, а скорее контроллер перестал их использовать.
Я не нашел способа [в CentOS] контролировать использование отдельных дисков, кроме как физически смотреть на светодиоды.