Назад | Перейти на главную страницу

Dell PowerEdge C1100 MRC отказал DIMM заменен, новая память не распознается в ранее неисправных слотах

Dell PowerEdge C1100, версия BIOS DS993B22, как видно через BMC IPMI, все 18 слотов памяти заполнены модулями 4 ГБ.

Произошли следующие ошибки памяти:

MRC Event: Memory sensor, MRC Warning(1B.01): Lane failures during Dqs clean-up!
MRC Event: Memory sensor, MRC Warning(1C): Hardware Memtest failed and the DIMM is disabled. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 1.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 2.

Я заменил модули Channel F, DIMM 0, 1 и 2 на заведомо исправные модули и загрузил систему. И BIOS, и системный журнал не показывают проблем с памятью, но сервер показывает только 72 ГБ памяти в BIOS и POST.

Я выключил сервер и заменил все модули каналов D и E на заведомо исправные модули, так что все модули CPU1 идентичны. Загрузили резервную копию сервера, та же проблема, только 72 ГБ отображаются в BIOS и POST.

В разделе режима памяти BIOS отображается Independent режим установлен. До вышеупомянутых ошибок памяти система действительно имела полностью работоспособные 96 ГБ.

Есть ли где-нибудь настройка для включения "отключенных" слотов? Мне не удалось найти такую ​​настройку на экранах BIOS или BMC.

Это коды данных событий SEL для этой проблемы, некоторые коды появлялись более одного раза, но один раз для каждого слота:

AF2900 WARN_DQS_TEST_MINOR_CLEANUP
AF2B60 WARN_MEM_TEST
AF1760 WARN_MEM_TEST_DIMM_DISABLE
AF1764 WARN_MEM_TEST_DIMM_DISABLE
AF1768 WARN_MEM_TEST_DIMM_DISABLE

В Как декодировать необработанные данные об ошибках памяти ECC для PowerEdge C1100, C2100, C6100, C6105 и C6145 Инструмент, предоставленный Dell, не расшифровывает эти ошибки.

Для справки, вот макет слота из Руководство пользователя оборудования Dell PowerEdge C1100 @ Dell.com

Оказалось, что эта проблема связана с устаревшей документацией и ошибкой пользователя.

18 слотов памяти на C1100. 4 ГБ оперативной памяти на слот.

18 * 4 = 72

Эти серверы имеют только 72 ГБ ОЗУ, а не 96 ГБ. Поскольку после замены оперативной памяти сервер показывает 72 ГБ работоспособности, все в порядке.