Наш новый сервер уже несколько месяцев работает нормально. Однако дважды он отключался без видимой причины.
Последнее событие произошло в 23:41 несколько дней назад. Журналы событий не показывают ничего плохого, и последняя запись - это довольно банальная контрольная запись в журнале безопасности. Журнал ИБП не показывает проблем с питанием. Ничего особенного не работало, так как было в нерабочее время. За исключением, конечно, ночного резервного копирования, которое начинается в 22:00. Журнал резервного копирования также не показывает ничего интересного и просто останавливается на середине резервного копирования. Хотя сервер настроен на запись дампа ядра и перезапуск, дамп памяти не происходит, и система не перезагружается. Это сервер серии HP Proliant ML330 G6.
Когда на следующее утро сервер был перезапущен вручную, были зарегистрированы следующие события:
Log Name: System
Source: EventLog
Date: 4/16/2011 8:20:22 AM
Event ID: 6008
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
и
Log Name: System
Source: Microsoft-Windows-Kernel-Power
Date: 4/16/2011 8:20:00 AM
Event ID: 41
Task Category: (63)
Level: Critical
Keywords: (2)
User: SYSTEM
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.
и
Log Name: System
Source: USER32
Date: 4/16/2011 8:22:34 AM
Event ID: 1076
Task Category: None
Level: Warning
Keywords: Classic
User: XXXXXXXXXXXXXXX\Administrator
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID:
Bugcheck String:
Comment:
Я потратил некоторое время на изучение этого и нашел очень мало пользы. У кого-нибудь есть идеи?
ОБНОВЛЕНИЕ: Вот соответствующие части журнала iLO2:
305 04/15/2011 23:42:00 Server reset.
306 04/15/2011 23:42:00 Server power removed.
307 04/15/2011 23:42:00 iLO 2 network link down.
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps.
309 04/16/2011 08:17:00 Server power restored.
ОБНОВЛЕНИЕ: я увеличил размер файла подкачки, чтобы разрешить полные дампы ядра, поэтому, если это действительно сбой Windows, я смогу увидеть, что произошло - в следующий раз, когда это произойдет.
ОБНОВЛЕНИЕ: Прошивка сервера уже была обновлена.
ОБНОВЛЕНИЕ: было доступно множество обновлений для драйверов и системного программного обеспечения. Я установил большинство из них и теперь просто жду, чтобы увидеть, повторится ли проблема снова.
ОБНОВЛЕНИЕ 2018Jun06: после шести лет безотказной работы эта проблема вернулась, дважды за последнюю неделю или около того. Я изучаю возможность неисправности передней панели и ее проводки.
ОБНОВЛЕНИЕ 2018Nov30: Наконец, поменял местами кабель передней панели, но проблема все еще возникает. Далее идет блок питания.
Скорее всего, это неисправный комплект кабеля выключателя питания / светодиода. Мой ML310 G5 делал то же самое, и это решило проблему. Судя по всему, это известная проблема HP.
459186-001-02 ПЕРЕДНИЙ СВЕТОДИОД СИСТЕМЫ HEWLETT-PACKARD PROLIANT ML310 G5 К КАБЕЛЮ SYS / BRD P / N: 459186-001-02 - ОРИГИНАЛЫ HEWLETT-PACKARD
У меня была эта ТОЧНАЯ проблема с моим сервером 2008 R2. Оказывается, у CPUS серии Xeon 5000, который используется на вашем компьютере, есть проблема с 2008 R2 и ролью Hyper-V. Здесь я рискну и предполагаю, что у вас установлена роль Hyper-V, поскольку проблема идентична той, что была у меня.
Доступно исправление от Microsoft ВОТ. Я установил его в своей системе, и с тех пор все прошло без проблем.
Я собираюсь пойти ваааааай здесь и сказать, что вам может потребоваться обновление прошивки. Источник. Некоторое время назад у нас было нечто подобное с нашим DL380 G6.
Машина перегревается? Проверьте вентиляторы и вентиляционные отверстия на предмет скоплений пыли.
Установлено ли у вас программное обеспечение агента управления HP? Вы упоминаете журналы событий Windows и журналы резервного копирования, но не «аппаратные» журналы. Вам также нужно посмотреть туда, потому что самопроизвольные отключения могут быть связаны с проблемой оборудования, о которой вы не сможете увидеть информацию больше нигде.
Если бы это действительно был сбой системы, вы бы нашли такое событие в системном журнале:
Level: Error
Source: Bugcheck
Event ID: 1001
Text: The computer has rebooted from a bugcheck. The bugcheck was: [...]
Кроме того, сервер, настроенный на сохранение дампа ядра с последующей перезагрузкой, сделал бы именно это.
Отсутствие такого журнала событий и последующей перезагрузки означает, что отключение было вызвано внешним событием (отсутствие питания, аппаратный сбой ...). Кроме того, ваши журналы МОТ, похоже, подтверждают, что действительной причиной был сбой питания.