Один сервер перезагружается каждые несколько дней, казалось бы, совершенно случайно. Ни в одном журнале нет никаких упоминаний об ошибках до такой перезагрузки. Например, перезагрузка происходит между этими двумя сообщениями от /var/log/messages
и journalctl
:
Mar 13 11:25:01 server something: some action
Mar 13 14:33:00 server rsyslogd: [origin software="rsyslogd" swVersion="8.4.2" x-pid="2460" x-info="http://www.rsyslog.com"] start
Единственная подсказка, которую я смог найти, - это после перезагрузки, где-то при запуске она выдает эту строку IPMI:
Mar 13 14:33:00 server kernel: [ 24.621566] Copyright (C) 2004 MontaVista Software - IPMI Powerdown via sys_reboot.
Все остальные IPMI и прочие сообщения кажутся нормальными. Материнская плата этого сервера - Intel S5000PSL. Некоторые результаты ipmitool
:
# ipmitool mc watchdog get
Watchdog Timer Use: BIOS FRB2 (0x01)
Watchdog Timer Is: Stopped
Watchdog Timer Actions: Hard Reset (0x01)
Pre-timeout interval: 0 seconds
Timer Expiration Flags: 0x00
Initial Countdown: 0 sec
Present Countdown: 0 sec
Сохраняет ли IPMI другие журналы, о которых я не знаю, и если да, то как мне получить к ним доступ?
У меня была точно такая же проблема, следующим шагом был вход через последовательную консоль на другую машину без каких-либо результатов. Решение Fianl было запросом поддержки к поставщику. Получил новую материнку, с тех пор все ок