В моем офисе есть сервер, который, как мы подозреваем, выходит из строя RAID-контроллер (HP Smartarray). Однако холодная перезагрузка ни о чем не говорит.
Может ли кто-нибудь порекомендовать мне метод стресс-тестирования контроллера?
Симптомы, которые заставляют меня подозревать неисправный контроллер:
Бег dmesg
в консоли XenServer я вижу много сообщений, похожих на это:
end_request: I/O error, dev tda, sector 253655584
(номер сектора никогда не бывает одинаковым)
Когда мы перемещаем виртуальную машину на другой физический хост, мы больше не видим вышеуказанное сообщение
dmesg
больше не выводить указанное выше сообщениеПоиск в Google показал, что указанное выше сообщение чаще всего связано с неисправным контроллером SmartArray.
Как я могу быть уверен, что контроллер SmartArray не работает?
Контроллеры HP Smart Array выходят из строя нечасто. Обычно отказ случается внезапно и не ухудшается со временем.
В любом случае вы можете запустить автономную диагностику массива, загрузив DVD-диск HP SmartStart входит в комплект поставки сервера и работает под управлением HP Утилита диагностики массивов (ADU).
Вы не указали модель или поколение вашего сервера или RAID-контроллера (это полезно), но связанный образ DVD должен охватывать самые последние системы HP.
Что касается онлайн-стресс-теста, полезность стресса подходит для этой цели.
Я столкнулся с нестабильным поведением RAID-массива, когда один диск медленно выходит из строя, но этого недостаточно, чтобы полностью умереть или пересечь порог счетчика, чтобы указать на сбой.
Во-первых: я предполагаю, что ваш RAID настроен в какой-то избыточной конфигурации, такой как RAID 10 или RAID 5? и что у вас настроен горячий резерв (или, по крайней мере, есть запасной диск)?
запустите программное обеспечение для управления массивами hp и просмотрите данные SMART для каждого диска. определить любые диски, на которых имеется значительно больше ошибок, чем на других.
начиная с одного из дисков, который вы определили, извлеките диск. дождитесь восстановления горячего резерва, если он у вас есть. затем проверьте еще раз и посмотрите, улучшится ли ситуация. если да, значит, вы нашли свой диск. если нет, переустановите диск и повторите со следующим.
Кроме того, по моему опыту, обновление прошивки на жестких дисках и контроллерах улучшило обнаружение неисправных дисков.