У меня есть Linux-сервер f23, работающий как dev-сервер, и несколько раз за последние несколько недель я заходил в него и обнаруживал, что он был сброшен. Один раз он перезагрузился прямо передо мной, и казалось, что он сбрасывается в BIOS, а затем снова включается.
Кажется, это происходит примерно раз в 2 или 3 дня. Журнал сервера показывает только обычные операции, cron и т. Д., Пока он не будет сброшен и перезагружен;
https://paste.fedoraproject.org/518600/33737531/
Jan 01 20:01:02 pc03.config run-parts[19540]: (/etc/cron.hourly) starting mcelog.cron
Jan 01 20:01:02 pc03.config run-parts[19544]: (/etc/cron.hourly) finished mcelog.cron
Jan 01 20:09:10 pc03.config puppet-agent[19565]: Applied catalog in 0.03 seconds
-- Reboot --
Jan 01 20:17:57 pc03.config systemd-journal[372]: Runtime journal is using 8.0M (max allowed 1.5G, trying to leave 2.3G free of 15.6G available → current limit 1.5G).
Jan 01 20:17:57 pc03.config systemd-journal[372]: Runtime journal is using 8.0M (max allowed 1.5G, trying to leave 2.3G free of 15.6G available → current limit 1.5G).
Jan 01 20:17:57 pc03.config kernel: Linux version 4.8.13-100.fc23.x86_64 (mockbuild@bkernel02.phx2.fedoraproject.org) (gcc version 5.3.1 20160406 (Red Hat 5.3.1-6) (GCC) ) #1 SMP Fri Dec 9 14:51:40 UTC 2016
Jan 01 20:17:57 pc03.config kernel: Command line: BOOT_IMAGE=/vmlinuz-4.8.13-100.fc23.x86_64 root=/dev/mapper/fedora_pc03-root ro rd.lvm.lv=fedora_pc03/root rd.lvm.lv=fedora_pc03/swap rhgb quiet nouveau.modeset=0 rd.driver.blacklist=nouveau video=vesa:off LANG=en_GB.UTF-8
Jan 01 20:17:57 pc03.config kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Jan 01 20:17:57 pc03.config kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Однако, похоже, таких сообщений в журнале много;
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: It has been corrected by h/w and requires no further action
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: event severity: corrected
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: Error 0, type: corrected
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: fru_text: CorrectedErr
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: section_type: PCIe error
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: port_type: 0, PCIe end point
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: version: 0.0
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: command: 0xffff, status: 0xffff
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: device_id: 0000:80:02.3
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: slot: 0
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: secondary_bus: 0x00
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: vendor_id: 0xffff, device_id: 0xffff
Jan 01 17:05:20 pc03.config kernel: {680}[Hardware Error]: class_code: ffffff
Я проверил журнал событий BIOS smbios, и в нем есть только код перезагрузки 0x17, показывающий, что машина выходит после сброса, и он не зарегистрировал никаких сбросов памяти, как я ожидал.
К сожалению, аппарат не поддерживает IPMI, так как на плате стоит супермикро X9DAi.
Я не уверен, как интерпретировать код ошибки в этом сообщении об аппаратной ошибке, но кажется, что 0000: 80: 02 соответствует;
[root@pc03 ~]# lspci -s 0000:80:02
80:02.0 PCI bridge: Intel Corporation Xeon E5/Core i7 IIO PCI Express Root Port 2a (rev 07)
В настоящее время я слежу за сервером на предмет temps / cpu, поэтому я буду иметь хорошее представление о состояниях датчика, когда он выйдет из строя. Могу ли я предпринять какие-либо другие шаги, чтобы определить основную причину этого сбоя?