Назад | Перейти на главную страницу

Windows Server 2008 R2 выключился без видимой причины

Наш новый сервер уже несколько месяцев работает нормально. Однако дважды он отключался без видимой причины.

Последнее событие произошло в 23:41 несколько дней назад. Журналы событий не показывают ничего плохого, и последняя запись - это довольно банальная контрольная запись в журнале безопасности. Журнал ИБП не показывает проблем с питанием. Ничего особенного не работало, так как было в нерабочее время. За исключением, конечно, ночного резервного копирования, которое начинается в 22:00. Журнал резервного копирования также не показывает ничего интересного и просто останавливается на середине резервного копирования. Хотя сервер настроен на запись дампа ядра и перезапуск, дамп памяти не происходит, и система не перезагружается. Это сервер серии HP Proliant ML330 G6.

Когда на следующее утро сервер был перезапущен вручную, были зарегистрированы следующие события:

Log Name:      System
Source:        EventLog
Date:          4/16/2011 8:20:22 AM
Event ID:      6008
Task Category: None
Level:         Error
Keywords:      Classic
User:          N/A
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on ‎4/‎15/‎2011 was unexpected.

и

Log Name:      System
Source:        Microsoft-Windows-Kernel-Power
Date:          4/16/2011 8:20:00 AM
Event ID:      41
Task Category: (63)
Level:         Critical
Keywords:      (2)
User:          SYSTEM
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.

и

Log Name:      System
Source:        USER32
Date:          4/16/2011 8:22:34 AM
Event ID:      1076
Task Category: None
Level:         Warning
Keywords:      Classic
User:          XXXXXXXXXXXXXXX\Administrator
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected 
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID: 
Bugcheck String: 
Comment: 

Я потратил некоторое время на изучение этого и нашел очень мало пользы. У кого-нибудь есть идеи?

ОБНОВЛЕНИЕ: Вот соответствующие части журнала iLO2:

305 04/15/2011 23:42:00 Server reset. 
306 04/15/2011 23:42:00 Server power removed. 
307 04/15/2011 23:42:00 iLO 2 network link down. 
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps. 
309 04/16/2011 08:17:00 Server power restored. 

ОБНОВЛЕНИЕ: я увеличил размер файла подкачки, чтобы разрешить полные дампы ядра, поэтому, если это действительно сбой Windows, я смогу увидеть, что произошло - в следующий раз, когда это произойдет.

ОБНОВЛЕНИЕ: Прошивка сервера уже была обновлена.

ОБНОВЛЕНИЕ: было доступно множество обновлений для драйверов и системного программного обеспечения. Я установил большинство из них и теперь просто жду, чтобы увидеть, повторится ли проблема снова.

ОБНОВЛЕНИЕ 2018Jun06: после шести лет безотказной работы эта проблема вернулась, дважды за последнюю неделю или около того. Я изучаю возможность неисправности передней панели и ее проводки.

ОБНОВЛЕНИЕ 2018Nov30: Наконец, поменял местами кабель передней панели, но проблема все еще возникает. Далее идет блок питания.

Скорее всего, это неисправный комплект кабеля выключателя питания / светодиода. Мой ML310 G5 делал то же самое, и это решило проблему. Судя по всему, это известная проблема HP.

459186-001-02 ПЕРЕДНИЙ СВЕТОДИОД СИСТЕМЫ HEWLETT-PACKARD PROLIANT ML310 G5 К КАБЕЛЮ SYS / BRD P / N: 459186-001-02 - ОРИГИНАЛЫ HEWLETT-PACKARD

У меня была эта ТОЧНАЯ проблема с моим сервером 2008 R2. Оказывается, у CPUS серии Xeon 5000, который используется на вашем компьютере, есть проблема с 2008 R2 и ролью Hyper-V. Здесь я рискну и предполагаю, что у вас установлена ​​роль Hyper-V, поскольку проблема идентична той, что была у меня.

Доступно исправление от Microsoft ВОТ. Я установил его в своей системе, и с тех пор все прошло без проблем.

Я собираюсь пойти ваааааай здесь и сказать, что вам может потребоваться обновление прошивки. Источник. Некоторое время назад у нас было нечто подобное с нашим DL380 G6.

Машина перегревается? Проверьте вентиляторы и вентиляционные отверстия на предмет скоплений пыли.

Установлено ли у вас программное обеспечение агента управления HP? Вы упоминаете журналы событий Windows и журналы резервного копирования, но не «аппаратные» журналы. Вам также нужно посмотреть туда, потому что самопроизвольные отключения могут быть связаны с проблемой оборудования, о которой вы не сможете увидеть информацию больше нигде.

Если бы это действительно был сбой системы, вы бы нашли такое событие в системном журнале:

Level: Error
Source: Bugcheck
Event ID: 1001
Text: The computer has rebooted from a bugcheck.  The bugcheck was: [...]

Кроме того, сервер, настроенный на сохранение дампа ядра с последующей перезагрузкой, сделал бы именно это.

Отсутствие такого журнала событий и последующей перезагрузки означает, что отключение было вызвано внешним событием (отсутствие питания, аппаратный сбой ...). Кроме того, ваши журналы МОТ, похоже, подтверждают, что действительной причиной был сбой питания.