Назад | Перейти на главную страницу

HP ProLiant DL360 G7 зависает на экране «Калибровка мощности и температуры»

У меня новый HP ProLiant DL360 G7 система, в которой обнаружена проблема, которую трудно воспроизвести. Сервер случайным образом зависает на "Выполняется калибровка мощности и температуры ..." экран во время POST процесс. Обычно это следует за горячей загрузкой / перезагрузкой из установленной операционной системы.

На этом этапе система зависает на неопределенное время. Выполнение сброса или холодного запуска с помощью элементов управления питанием ILO 3 обеспечивает нормальную загрузку системы без происшествий.

Когда система находится в этом состоянии, интерфейс ILO 3 полностью доступен, и все индикаторы работоспособности системы в порядке (все зеленые). Сервер находится в центре обработки данных с климат-контролем и питанием от PDU. Температура окружающей среды составляет 64 ° F / 17 ° C. Система была помещена в 24-часовой цикл тестирования компонентов до развертывания без сбоев.

Основная операционная система для этого сервера - VMWare ESXi 5. Первоначально мы пробовали версию 5.0 и более позднюю версию 5.1. Оба были развернуты через загрузку PXE и ​​кикстарт. Кроме того, мы тестируем простые установки Windows и Red Hat Linux.

Системы HP ProLiant имеют полный набор опций BIOS. Мы попробовали настройки по умолчанию в дополнение к статическому высокопроизводительному профилю. Я отключил загрузку заставка и просто получите в этой точке мигающий курсор, а не на снимке экрана выше. Мы также пробовали VMWare "лучшие практики" для BIOS config. Мы видели рекомендация HP, которая, кажется, указывает на аналогичную проблему, но не устранил нашу конкретную проблему.

Подозревая проблему с оборудованием, я попросил поставщика отправить идентичную систему для доставки в тот же день. Новый сервер представлял собой полностью идентичную сборку, за исключением дисков. Перенесли диски со старого сервера на новый. Мы столкнулись с той же проблемой случайной загрузки на замененном оборудовании.

Теперь у меня оба сервера работают параллельно. Проблема возникает случайным образом на теплой обуви. Холодные ботинки, похоже, не проблема. Я изучаю некоторые из более сложных настроек BIOS, таких как отключение Turbo Boost или полное отключение функции калибровки мощности. Я мог бы попробовать их, но в них нет необходимости.

Есть предположения?

--редактировать--

Детали системы:

Все микропрограммы обновлены до последней версии HP Service Pack для ProLiant DVD.

Обращаясь к HP и просматривая interwebz, я видел упоминания о плохом взаимодействии с ILO 3, но это происходит и с сервером на физической консоли. HP также предложила источник питания, но он находится в стойке центра обработки данных, которая успешно питает другие производственные системы.

Есть ли вероятность, что это может быть плохое взаимодействие между низковольтными модулями DIMM и блоками питания на 750 Вт? Этот сервер должен быть поддерживаемой конфигурацией.

Итак, принеся третий системы в микс, и, столкнувшись с той же проблемой, мы начали подвергать сомнению среду. Я откопал копию Руководство по устранению неполадок серверов HP ProLiant и нашел блок-схему проблем POST, показанную ниже.

Внимательно пройдя этапы диаграммы, мы поняли, что единственной константой на всех серверах был KVM-переключатель, подключенный к аварийной тележке центра обработки данных. Это был KVM потребительского класса с USB-подключением. Согласно выделенному узлу на блок-схеме, Вы знали хороший KVM?, Я не смог однозначно ответить.

Итак, мы отключили серверы от переключателя KVM и запустили автоматическую загрузку, sleep 300; reboot последовательность в rc.local. У серверов не было проблем с этим, независимо от обычных модулей DIMM, низковольтных модулей DIMM, мощности блока питания и т. Д.

Все это было результатом плохого взаимодействия с USB-переключателем KVM. Благодаря тому, что это была консоль, это гарантировало, что мы увидим ошибку, если будем ее искать. Самореализация ...