Отказ от ответственности: я использую стареющий кластер, по которому у меня очень ограниченная информация - я примерно десятый аспирант, занимающийся повседневным обслуживанием, и я не являюсь экспертом в области высокопроизводительных вычислений, оборудования или программного обеспечения. Я использую этот кластер для запуска разработанного мной кода и устранения неполадок только при необходимости. Документация ограничена в основном системой управления кластером (Scyld), специфичной для конкретного кластера, и мы больше не находимся на гарантии, поэтому обращение в службу технической поддержки является крайней мерой, поскольку с нас будет взиматься плата (академические круги настоятельно не рекомендуют этого).
Проблема: один из узлов этого кластера не загружается, что дает следующую ошибку во время загрузки:
Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume
После нажатия F1 узел перезагружается и возвращается к этому. Это заставляет меня думать, что есть ошибка памяти (читай: аппаратная). Я открыл BIOS, и появилась вся память, но в журнале событий 5 пунктов (размещены внизу). У меня такое ощущение, что эти коды могут направить меня на ошибку - особенно если у меня мертвый модуль DIMM или что-то еще хуже.
Попытки исправления: каждый узел кластера содержит 2 четырехъядерных процессора AMD Opteron 2350, и каждый процессор имеет свой собственный банк памяти с 8 слотами. В настоящее время в каждом банке установлено по 4 модуля DIMM в слотах 1–4. Я попытался переустановить DIMM, поменять порядок модулей DIMM в обратном порядке, установить DIMM в слоты 5-8 и переключить банки, в которых находится модуль DIMM, чтобы посмотреть, может ли это позволить мне изолировать какие-либо проблемы - безрезультатно.
Я нашел некоторую информацию о кодах ошибок SEL (здесь), и это кажется несколько обнадеживающим, но коды не совсем такие же, и поэтому я не могу полностью им доверять.
Желаемое решение: выясните, что означают эти коды SEL, определите проблему (и, надеюсь, исправьте ее) и загрузите узел. Было бы полезно даже сузить его до плохого модуля DIMM, плохого процессора или чего-то еще.
Спасибо!
Другая информация, которая может оказаться полезной, а может и не оказаться: Система представляет собой кластер Penguin с 32 узлами, каждый из которых идентичен (подробно описано выше). Он работает под управлением CentOS 4.6. Это кластер Беовульф, используемый для высокопараллельного вычислительного моделирования, с использованием MPI для сбора / распределения процессов по узлам.
Журнал системных событий:
SEL Entry Number [1]
SEL Record ID: 0001
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:01:52
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: C1
Event Sensor Number: 81
Event Dir Type: 70
Event Data: A0 01 07
SEL Entry Number [2]
SEL Record ID: 0002
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 08 41
SEL Entry Number [3]
SEL Record ID: 0003
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0B 41
SEL Entry Number [4]
SEL Record ID: 0004
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0D 41
SEL Entry Number [5]
SEL Record ID: 0005
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0F 41
memory event-log cluster