Назад | Перейти на главную страницу

mcelog и HP BL460: понять ошибку DIMM

Как сказано в заголовке, на одном из моих BL460 у меня установлен RedHat, и в / var / log / messages появляется повторяющееся сообщение от mcelog deamon, говорящее мне:

mcelog: исправленные ошибки памяти на странице 61a5dd000 превышают пороговое значение 10 за 24 часа: 10 за 24 часа mcelog: Location SOCKET: 1 CHANNEL: 1 DIMM: 0 [] mcelog: Offlining page 61a5dd000 mcelog: Offlining page 61a5dd000 failed: Ошибка ввода / вывода

У меня два вопроса:

  1. Сообщение "нормальное", я имею в виду, что система видит ошибки, исправляет их, и после всех исправлений у меня больше не должно быть этих ошибок в / var / log / messages? (даже если это означает, что в каком-то модуле dimm есть ошибки)

  2. Я пытаюсь найти модуль DIMM, но не нахожу его. Я обнаружил PROC 1 BL и пару CHANNEL 1. Но в BL460 DIMM или указаны как от 1 до 6. Я предположил, что DIMM: 0 был физическим DIMM 1, но после его удаления сообщение по-прежнему появляется в / var / log / messages. (затем я удалил 1 и 2, чтобы проверить, потому что оба являются CHANNEL1, но все равно такие же) Как я могу понять, какой это физический модуль DIMM?

Спасибо :)

Это тот случай, когда у вас должны быть установлены агенты управления HPE. Я не использую mcelog на правильном серверном оборудовании HPE.

Видеть: Сервер HP ProLiant DL380e Gen8 - использование SPP

Для RHEL / CentOS эти драйверы управляют работоспособностью системы и сообщают ОС. Конечно, вы также можете получить эту информацию непосредственно в МОТ.

Пример вывода:

hpasmcli> show dimm
DIMM Configuration
------------------
Processor #:                     1
Module #:                     1
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

Processor #:                     1
Module #:                     4
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

Или через МОТ ...