Я запускал новую систему на Arch Linux около 3 недель, а вчера вечером она самопроизвольно перезагрузилась.
В journalctl во время перезагрузки нет выключения / остановки, поэтому я почти уверен, что это связано с оборудованием, а не с программой пользовательского пространства или acpi.
journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
Затем во время загрузки
Jul 01 06:24:46 euclid kernel: .... node #0, CPUs: #1 #2 #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel: #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15
Когда я пытаюсь запустить mcelog, я получаю
0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead.
CPU is unsupported
Подозреваю либо 1) я занизил БП для этой системы, либо 2) где-то перегревается.
Все калькуляторы БП, которые я использовал, давали мне рекомендацию 750 Вт, поэтому я выбрал блок питания на 850 Вт. Тем не менее, сейчас я рассматриваю возможность обновления до блока питания мощностью 1000 Вт.
Мои вопросы: как мне интерпретировать это событие проверки машины? Я думаю, это зависит от моего процессора? Предоставляет ли AMD какую-либо информацию, которая позволила бы мне расшифровать эту ошибку? И как я узнаю, что перезагрузился из-за перегрева? Я не могу найти журнал событий в BIOS (ASUS).
РЕДАКТИРОВАТЬ: подробнее
Процессор: Ryzen 7 1700
Мобо: Asus Prime x370-Pro
Оперативная память: G.SKILL Trident Z (4x 8 ГБ) 3200 (F4-3200C16D-16GTZKW)
Блок питания: EVGA SuperNOVA 850 P2 80+ PLATINUM 850 Вт
Графический процессор: GTX 1080-TI x2
Дескриптор 0x0000, тип DMI 0, 24 байта
Информация о BIOS
Производитель: American Megatrends Inc.
Версия: 0604
Дата выпуска: 06.04.2017
Без разгона. Стоковые настройки BIOS.
Он работал стабильно несколько недель. За пару дней до мероприятия я добавил 3 жестких диска.
РЕДАКТИРОВАТЬ: похоже, что тот же сбой произошел снова
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
Похоже, это проблема с оборудованием процессора. На форумах сообщества AMD (https://community.amd.com/thread/215773) было предложено отключить SMT или OpCache в качестве временного решения, пока это не будет исправлено.
Я отключил OpCache в BIOS, и сообщения mce: [Hardware Error] во время загрузки исчезли. У меня две идентичные системы, у которых была такая же проблема с зависаниями / перезагрузками. До сих пор обе системы не зависали.