У меня есть выделенный сервер, который перестает отвечать через несколько дней работы. Иногда это 1 день, а иногда 5 дней, но это всегда происходит, и я не могу связаться с сервером через ssh и не войти в панель управления supermicro.
Мне нужно выключить и снова включить сервер с панели управления провайдера, чтобы сервер снова стал доступен.
На сервере не работает что-то тяжелое, только установка LAMP.
Как я могу это диагностировать, увидеть, что не так, и исправить проблемы?
Единственное, что я обнаружил, - это messages
файл:
Aug 16 18:01:50 server1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 16 18:01:50 server1 kernel: CPU 0: Machine Check Exception: 0 Bank 7: 8c00004000010093
Aug 16 18:01:50 server1 kernel: TSC 0 ADDR 2804ab80 MISC 214042c286 PROCESSOR 0:306e4 TIME 1439766110 SOCKET 0 APIC 0
Aug 16 18:01:50 server1 kernel: EDAC MC0: CE row 6, channel 0, label "CPU_SrcID#0_Channel#3_DIMM#0": 1 Unknown error(s): memory read on FATAL area : cpu=0 Err=0001:0093 (ch=3), addr = 0x2804ab80 => socket=0, Channel=3(mask=8), rank=2
Устройство сообщает об ошибке ОЗУ и даже сообщает, какой модуль поврежден. Рекомендация: замените этот модуль и посмотрите, исчезнет ли проблема.