Назад | Перейти на главную страницу

Информация о кодах ошибок SEL

Отказ от ответственности: я использую стареющий кластер, по которому у меня очень ограниченная информация - я примерно десятый аспирант, занимающийся повседневным обслуживанием, и я не являюсь экспертом в области высокопроизводительных вычислений, оборудования или программного обеспечения. Я использую этот кластер для запуска разработанного мной кода и устранения неполадок только при необходимости. Документация ограничена в основном системой управления кластером (Scyld), специфичной для конкретного кластера, и мы больше не находимся на гарантии, поэтому обращение в службу технической поддержки является крайней мерой, поскольку с нас будет взиматься плата (академические круги настоятельно не рекомендуют этого).

Проблема: один из узлов этого кластера не загружается, что дает следующую ошибку во время загрузки:

Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume

После нажатия F1 узел перезагружается и возвращается к этому. Это заставляет меня думать, что есть ошибка памяти (читай: аппаратная). Я открыл BIOS, и появилась вся память, но в журнале событий 5 пунктов (размещены внизу). У меня такое ощущение, что эти коды могут направить меня на ошибку - особенно если у меня мертвый модуль DIMM или что-то еще хуже.

Попытки исправления: каждый узел кластера содержит 2 четырехъядерных процессора AMD Opteron 2350, и каждый процессор имеет свой собственный банк памяти с 8 слотами. В настоящее время в каждом банке установлено по 4 модуля DIMM в слотах 1–4. Я попытался переустановить DIMM, поменять порядок модулей DIMM в обратном порядке, установить DIMM в слоты 5-8 и переключить банки, в которых находится модуль DIMM, чтобы посмотреть, может ли это позволить мне изолировать какие-либо проблемы - безрезультатно.

Я нашел некоторую информацию о кодах ошибок SEL (здесь), и это кажется несколько обнадеживающим, но коды не совсем такие же, и поэтому я не могу полностью им доверять.

Желаемое решение: выясните, что означают эти коды SEL, определите проблему (и, надеюсь, исправьте ее) и загрузите узел. Было бы полезно даже сузить его до плохого модуля DIMM, плохого процессора или чего-то еще.

Спасибо!

Другая информация, которая может оказаться полезной, а может и не оказаться: Система представляет собой кластер Penguin с 32 узлами, каждый из которых идентичен (подробно описано выше). Он работает под управлением CentOS 4.6. Это кластер Беовульф, используемый для высокопараллельного вычислительного моделирования, с использованием MPI для сбора / распределения процессов по узлам.

Журнал системных событий:

SEL Entry Number            [1]
SEL Record ID:              0001
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:01:52
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          C1
Event Sensor Number:            81
Event Dir Type:             70
Event Data:                 A0 01 07

SEL Entry Number            [2]
SEL Record ID:              0002
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 08 41

SEL Entry Number            [3]
SEL Record ID:              0003
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0B 41

SEL Entry Number            [4]
SEL Record ID:              0004
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0D 41

SEL Entry Number            [5]
SEL Record ID:              0005
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0F 41
memory event-log cluster