У меня есть сервер на SuperMicro MBD-X9DRD-EF системная плата. Он хорошо работал в CentOS7 в течение года с одним процессором (Intel Original Xeon X6 E5-2620v2) и 128 ГБ (8x16 ГБ) LVDDR (1600 МГц Crucial ECC Reg RTL (PC3-12800)) памятью. В прошлом месяце мы модернизировали этот сервер, добавив второй ЦП и дополнительную память 128 Гб, полностью идентичную существующим. Но после интенсивного использования сервера (в течение 3-4 дней) мы начинаем (очень часто) получать такие ошибки:
[root@GBserver log]# dmesg
[614781.869098] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[614781.869104] EDAC sbridge MC1: CPU 6: Machine Check Event: 0 Bank 7: 8c00004000010090
[614781.869106] EDAC sbridge MC1: TSC 0
[614781.869108] EDAC sbridge MC1: ADDR 38126a6c40
[614781.869110] EDAC sbridge MC1: MISC 14066ca86
[614781.869112] EDAC sbridge MC1: PROCESSOR 0:306e4 TIME 1473082855 SOCKET 1 APIC 20
[614782.595676] EDAC MC1: 1 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x38126a6 offset:0xc40 grain:32 syndrome:0x0 - area:DRAM err_code:0001:0090 socket:1 ha:0 channel_mask:1 rank:1)
И вывод edac-util:
[root@GBserver log]# edac-util -v
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
mc0: csrow0: 0 Uncorrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors
mc0: csrow1: 0 Uncorrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors
mc1: 0 Uncorrected Errors with no DIMM info
mc1: 0 Corrected Errors with no DIMM info
mc1: csrow0: 0 Uncorrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 296182 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors
mc1: csrow1: 0 Uncorrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors
mc1: csrow0: CPU_SrcID # 1_Ha # 0_Chan # 0_DIMM # 0: 296182 Исправленные ошибки
Эти ошибки возникли из-за неисправности материнской платы, процессора или ОС, или у нас сломалась микросхема памяти? Что нам делать? Как найти неработающий модуль памяти?
Через 3 недели было зарегистрировано около 11 млн исправленных ошибок. Я обнаружил сломанный модуль памяти после просмотра журнала BIOS. Это ответ на мой вопрос.
Далее я удалю сломанный модуль и заменю его другим.