Я запускаю Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все работает гладко, как в htop первое изображение. Затем, внезапно, htop начинает сообщать об использовании одного процессора выше 1000%, как в этом второе изображение, и компьютер почти не отвечает. Кстати, кажется, что почти каждый процесс перегружает процессор: даже сам htop сообщает о загрузке 1600% !!! При этом в journalctl появляются такие ошибки:
perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52
kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37
но я не могу определить, являются ли они симптомом или причиной странного поведения. Кто-нибудь знает, что происходит? Большое спасибо!
Обновить: Я установил ipmitool и запустил демон ipmievd. Как только проблема начинается, в journalctl появляется следующее:
ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))
Возможно ли, что проблема связана с неисправным модулем памяти?
Причина действительно была в неисправном плунжерном модуле. Аномальный всплеск использования процессора появился, когда в журналах начала появляться ошибка оперативной памяти. модуль был идентифицирован и заменен, и теперь проблема решена.