Как сказано в заголовке, на одном из моих BL460 у меня установлен RedHat, и в / var / log / messages появляется повторяющееся сообщение от mcelog deamon, говорящее мне:
mcelog: исправленные ошибки памяти на странице 61a5dd000 превышают пороговое значение 10 за 24 часа: 10 за 24 часа mcelog: Location SOCKET: 1 CHANNEL: 1 DIMM: 0 [] mcelog: Offlining page 61a5dd000 mcelog: Offlining page 61a5dd000 failed: Ошибка ввода / вывода
У меня два вопроса:
Сообщение "нормальное", я имею в виду, что система видит ошибки, исправляет их, и после всех исправлений у меня больше не должно быть этих ошибок в / var / log / messages? (даже если это означает, что в каком-то модуле dimm есть ошибки)
Я пытаюсь найти модуль DIMM, но не нахожу его. Я обнаружил PROC 1 BL и пару CHANNEL 1. Но в BL460 DIMM или указаны как от 1 до 6. Я предположил, что DIMM: 0 был физическим DIMM 1, но после его удаления сообщение по-прежнему появляется в / var / log / messages. (затем я удалил 1 и 2, чтобы проверить, потому что оба являются CHANNEL1, но все равно такие же) Как я могу понять, какой это физический модуль DIMM?
Спасибо :)
Это тот случай, когда у вас должны быть установлены агенты управления HPE. Я не использую mcelog на правильном серверном оборудовании HPE.
Видеть: Сервер HP ProLiant DL380e Gen8 - использование SPP
Для RHEL / CentOS эти драйверы управляют работоспособностью системы и сообщают ОС. Конечно, вы также можете получить эту информацию непосредственно в МОТ.
Пример вывода:
hpasmcli> show dimm
DIMM Configuration
------------------
Processor #: 1
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
Processor #: 1
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
Или через МОТ ...