Назад | Перейти на главную страницу

Внезапная перезагрузка HP ProLiant DL 320 G5

У меня недавно произошла внезапная перезагрузка этого сервера. Мне нравится знать, почему это происходит. Единственное, что, как я вижу, произошло непосредственно перед перезагрузкой в ​​system.log, - это что-то о iLO. iLO в настоящее время не подключен и не используется. И другого сообщения об iLO в логах нет.

Любая идея ?

ОС: Debian Etch

Dec 15 10:55:13 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:16 s01 hpasmxld[4745]: OsKcsExecCmd:  IPMI NetFN  0x36   CMD: 0x2 has timed out!
Dec 15 10:55:26 s01 hpasmxld[4745]: OsKcsExecCmd:  IPMI NetFN  0x36   CMD: 0x2 has timed out!
Dec 15 10:55:29 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:36 s01 hpasmxld[4745]: OsKcsExecCmd:  IPMI NetFN  0x36   CMD: 0x2 has timed out!
Dec 15 10:55:44 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:46 s01 hpasmxld[4745]: OsKcsExecCmd:  IPMI NetFN  0x36   CMD: 0x2 has timed out!
Dec 15 10:55:46 s01 hpasmxld[4745]: iLO 2 Communications Error - Attempting synchronization!
Dec 15 10:55:59 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:56:29 s01 last message repeated 2 times
Dec 15 10:56:31 s01 hpasmxld[4745]: iLO 2 has responded to reset request . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Stopping the Watchdog Timer . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Resetting Internal Data structures . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Initializing Internal Data structures from iLO 2. . .
Dec 15 10:56:31 s01 hpasmxld[4745]: The iLO 2 reset / synchronization has completed successfully

Поскольку на вашем компьютере установлены агенты управления HP (на основе записей журнала), вы можете быстро взглянуть на журнал HP Integrated Management Log, чтобы узнать, действительно ли был записан ASR. Бегать hplog -v для отображения журнала. Типичное сообщение об отключении ASR будет выглядеть так:

0003 Critical       13:49  02/23/2010 13:49  02/23/2010 0001
LOG: ASR Detected by System ROM

Вы также можете проверить журнал сообщений. Агенты управления HP могут выводить что-то вроде этого после ASR:

Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has
been shutdown by the ASR feature and has just become operational
again.

Ознакомьтесь с информацией здесь:

http://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?lang=en&cc=us&taskId=120&prodSeriesId=316587&prodTypeId=15351&objectID=c01330219

что, кажется, предполагает, что после продолжительного периода времени низкой загрузки сервера происходит автоматическое восстановление сервера.

У меня была аналогичная ошибка с сервером HP, который перегрелся из-за плохо установленного заводского радиатора процессора.

Сам сервер не обнаружил никаких внешних признаков проблемы, но в вашем случае, возможно, стоит проверить температуру процессора и (в период планового обслуживания) запустить проверку памяти.