Сервер - IBM x3650 M3 с оперативной памятью 144 ГБ и двумя контроллерами IBM Serveraid M5015. Запуск хоста Windows Server 2012R2 HyperV.
Он работает у нас с начала 2017 года, никаких проблем до этой пары недель. Примерно 18 ноября у хостинговой компании произошел сбой ИБП, поэтому сервер был отключен на несколько часов. Все снова в резервную копию, без проблем.
Первая ошибка была All PCI error
в воскресенье, 24-го, и с тех пор мы получаем серию «Ошибок NMI» - все они регистрируются в журнале модуля IMM. Если возникает одна ошибка, сервер перезагружается, но затем часто случается вторая (или даже восемь утром) подряд. Это происходило случайно каждый день на этой неделе.
Я сейчас на месте, и сначала я запустил диагностику памяти Windows ... при первом проходе она была на уровне 60%, а затем, когда я смотрю, она дважды перезапускалась с теми же ошибками NMI.
Сделал полное чистое выключение, открыл корпус и проверил, установлены ли все PCI-карты и т. Д., Искал посторонние предметы - ничего.
Снова запустил, запустил IBM Diagnostics. Сначала я запустил быструю проверку памяти, и она снова вылетела в середине:
Я повторно запустил быструю проверку памяти еще раз, чтобы проверить, есть ли та же ошибка и та же точка, и на этот раз все пять тестов прошли без проблем. Это память ECC, поэтому я ожидал, что сервер сможет определить, неисправен ли модуль DIMM.
Проблема в том, что ошибка не воспроизводится, поэтому трудно определить причину. PCI-карта? Системная плата? Объем памяти?
Помощь / предложения приветствуются