Назад | Перейти на главную страницу

Автоматизированное тестирование оборудования серверов HP?

В рамках подготовки серверов мы запускаем HP Insight Diagnostics для тестирования оборудования. Это ручной процесс. Есть ли способ автоматизировать запуск Insight Diagnostics?

Существует программное обеспечение hpdiags с опцией «-rd:» «Выполнить диагностику всех диагностируемых устройств». Судя по моему тестированию, этого мало (он просто считывает информацию SMART с дисков). Кому-нибудь повезло больше с этим?

Оборудование: BladeCenter c7000 с блейд-серверами HP ProLiant BL460c, DL360s.

ОС: ESXi и Ubuntu.

hardware hp hp-proliant automated-testing

Итак, я задам другой вопрос:

Почему необходимо запускать диагностику оборудования HP Insight на серверах перед подготовкой?

В моем комментарии выше я указал, что мало что можно получить, делая это с упреждением в больших средах HP ProLiant. Я должен уточнить свои мысли по этому поводу ...

В порядке убывания частоты рассмотрим типы проблем, с которыми вы обычно сталкиваетесь:

Массив хранения и диски: RAID-контроллер будет сообщать ОС, журналы, SNMP, электронную почту, ILO и зажги красивые огни для обозначения здоровья.
ОЗУ: Процесс POST определит состояние RAM, а также систему, отправляющую отчеты в ОС, журналы, SNMP, электронную почту, ILO и загорится светодиодный индикатор на передней панели. Дисплей Systems Insight (SID). Кроме того, я не фанат Процессы выгорания RAM потому что обнаружение ошибок в этих системах уже надежно.
Тепловые и вентиляторы: Температура сервера и скорость вращения вентилятора регулируются МОТ. В этих системах более 30 датчиков температуры., поэтому система охлаждения чрезвычайно эффективна. Это по-прежнему сообщает ОС, журналам, SNMP, электронной почте и SID.
Источник питания: Состояние блока питания передается в ОС, в журналы, SNMP, электронную почту и на SID, а также светится фактический индикатор на фактическом блоке питания.
Общее самочувствие: Это легко оценить с первого взгляда с помощью дисплея SID, а также индикаторов внутреннего и внешнего состояния. Об этом также сообщается в журналах сервера, SNMP, электронной почте и ILO.

Я не могу придумать никаких условий, которые были бы обнаружены перед развертыванием, о которых не было бы / нельзя было бы сообщить во время выполнения или после установки ОС.

Цикл диагностики обычно ничего не находит при запуске в системе без очевидных предыдущих проблем. Это главным образом связано с тем, что серверу необходимо выполнить POST и загрузиться в служебную программу или встроенное ПО Intelligent Provisioning, чтобы запустить служебную программу.

Другими словами, любой элемент, который был бы серьезным SPOF для сервера, вероятно, помешал бы системе запустить самодиагностику.

Элементы с наиболее частыми отказами все еще довольно надежны; диски должны быть в RAID и иметь возможность горячей замены. Вентиляторы и блоки питания также поддерживают горячую замену. Ваша RAM имеет пороги ECC, и для большинства платформ ProLiant есть запасные онлайн-опции. Вы ничего не сможете сделать, чтобы вызвать отказ этих компонентов, запустив диагностику. Добавьте тот факт, что вы используете Корпуса HP C7000 Blade с внутренним резервированием, и вероятность неудач должна быть довольно низкой.