Назад | Перейти на главную страницу

Мониторинг аппаратных сбоев на серверах HP DL

Существуют ли какие-либо инструменты, кроме предоставленных HP, для мониторинга отказов компонентов на этих серверах из RHEL5?

Аппаратные перехватчики HP сами по себе являются собственностью, но они предоставляют свои инструменты с помощью ряда «открытых» методов, таких как SNMP / WMI / WBEM и т. Д. Так что вам НЕ ОБЯЗАТЕЛЬНО использовать SIM / SMHP.

Инструменты HP ASM и идентификаторы SNMP OID - это то, что мы в основном используем для общего мониторинга компонентов ....

В качестве альтернативы вы также можете использовать smartmontools для мониторинга дисководов, и большинство датчиков должны отображаться в lm_sensors

Вам следует установить полный набор инструментов HP, пакеты hpasm / hprsm и т. Д. Это буквально самые сложные для установки пакеты, которые я когда-либо видел. Кажется, они были написаны людьми, не заботящимися о простоте развертывания. Они предоставляют сценарий оболочки, который вы можете запустить вручную, используйте его сначала, пока не поймете, как взломать этот сценарий, написать оболочку, установить пакеты RPM по отдельности или использовать разумное поведение поставщика или поставщика.

Вы должны следить за системным журналом на предмет ошибок этих инструментов.

Вы должны проанализировать вывод hpasmcli (показать сервер, показать dimm) и hpacucli (показать все контроллеры, затем для каждого слота контроллера = X pd все показать), чтобы определить сбои. Если вы полагаетесь на отчеты системного журнала, вы пропустите сбои и столкнетесь с неприятными катастрофами.

Вы также должны проанализировать вывод hplog и очистить вывод после его проверки, заархивируя этот вывод где-нибудь. Считайте это избыточной проверкой для проверки hpasmcli / hpacucli.

Вы должны использовать hponcfg, чтобы убедиться, что ILO настроен, и подключиться к нему, чтобы убедиться, что он действительно реагирует.

Убедитесь, что вы можете обновлять прошивку, и делайте это регулярно. HP выпускает критические обновления прошивки, например, которые превращают сбой из-за незначительной ошибки памяти, не идентифицируя неисправный модуль DIMM, в индикатор неисправности. Компания HP изменила мое мнение об обновлении прошивки, когда это не является абсолютно необходимым. (Ну, это абсолютно необходимо, вам просто никто не говорит).

Откажитесь от SNMP. У вас много работы, это просто дополнительная работа, которая не даст вам полной функциональности, которая вам нужна, поэтому вам все равно придется выполнять другую работу.

Серверы HP по-прежнему остаются лучшими серверами Intel с точки зрения отчетности и управления аппаратными проблемами. У них просто есть некоторые очень раздражающие проблемы. Возможно, если каждый клиент пожалуется хотя бы один раз, он упростит развертывание. Этому просто нет оправдания.

DL3 [68] 0 G5 с RHEL5 и постоянно отслеживаемыми инструментами управления HP вместе с периодическими стресс-тестами диска и памяти будет самым надежным решением Intel на рынке. Просто приложите все усилия, чтобы убедиться, что вы окупаете свои деньги. HP предоставляет вам инструменты, но они не делают их настолько простыми в использовании, как следовало бы.

Используйте только HP RAM. В противном случае это не стоит того. Вам не нужно, чтобы поставщики указывали друг на друга, когда на модуле DIMM горит индикатор неисправности.

Регулярно выполняйте пошаговое руководство по центру обработки данных на наличие индикаторов неисправностей и используйте его для исправления ошибок в сценариях мониторинга. Так я узнал, что системный журнал практически бесполезен, и вы должны регулярно проверять hpasmcli / hpacucli.