Dell PowerEdge C1100, версия BIOS DS993B22, как видно через BMC IPMI, все 18 слотов памяти заполнены модулями 4 ГБ.
Произошли следующие ошибки памяти:
MRC Event: Memory sensor, MRC Warning(1B.01): Lane failures during Dqs clean-up!
MRC Event: Memory sensor, MRC Warning(1C): Hardware Memtest failed and the DIMM is disabled. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 1.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 2.
Я заменил модули Channel F, DIMM 0, 1 и 2 на заведомо исправные модули и загрузил систему. И BIOS, и системный журнал не показывают проблем с памятью, но сервер показывает только 72 ГБ памяти в BIOS и POST.
Я выключил сервер и заменил все модули каналов D и E на заведомо исправные модули, так что все модули CPU1 идентичны. Загрузили резервную копию сервера, та же проблема, только 72 ГБ отображаются в BIOS и POST.
В разделе режима памяти BIOS отображается Independent
режим установлен. До вышеупомянутых ошибок памяти система действительно имела полностью работоспособные 96 ГБ.
Есть ли где-нибудь настройка для включения "отключенных" слотов? Мне не удалось найти такую настройку на экранах BIOS или BMC.
Это коды данных событий SEL для этой проблемы, некоторые коды появлялись более одного раза, но один раз для каждого слота:
AF2900 WARN_DQS_TEST_MINOR_CLEANUP
AF2B60 WARN_MEM_TEST
AF1760 WARN_MEM_TEST_DIMM_DISABLE
AF1764 WARN_MEM_TEST_DIMM_DISABLE
AF1768 WARN_MEM_TEST_DIMM_DISABLE
В Как декодировать необработанные данные об ошибках памяти ECC для PowerEdge C1100, C2100, C6100, C6105 и C6145 Инструмент, предоставленный Dell, не расшифровывает эти ошибки.
Для справки, вот макет слота из Руководство пользователя оборудования Dell PowerEdge C1100 @ Dell.com
Оказалось, что эта проблема связана с устаревшей документацией и ошибкой пользователя.
18 слотов памяти на C1100. 4 ГБ оперативной памяти на слот.
18 * 4 = 72
Эти серверы имеют только 72 ГБ ОЗУ, а не 96 ГБ. Поскольку после замены оперативной памяти сервер показывает 72 ГБ работоспособности, все в порядке.