Назад | Перейти на главную страницу

Диагностика жесткого зависания в Linux

В течение последнего месяца одна из моих машин Debian Squeeze (Linux 2.6.32-bpo.5-amd64) дважды зависала, жесткий. Нет ответа на ARP, темную консоль, Caps Lock, Num Lock не работает, Магия SysRq неэффективен. Смена ядра на 3.2.0-0.bpo.2-amd64 из бэкпортов тоже не помогла.

Мониторинг температуры и нагрузки не показывает никаких скачков до сбоя.

Как мне диагностировать и устранить такую ​​проблему?

Является netconsole моя единственная ставка?

РЕДАКТИРОВАТЬ: Я уже отключил гашение экрана:

#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0

и

setterm -blank 0

на физической консоли.

ОБНОВИТЬ:

На этот раз он заблокирован, на экране все еще отображается запрос на вход. После прошлых проблем я без проблем провел 6-часовой нагрузочный тест с тестом BOINC (Prime 95).

Поскольку зависания происходили все чаще и чаще, проблема, вероятно, была вызвана неисправной материнской платой или, что менее вероятно, процессором. После замены этих компонентов проблемы исчезли.

Нашел два возможных решения, сообщу, сработали ли они. РЕДАКТИРОВАТЬ: Они не

Во-первых nmi_watchdog включен путем добавления nmi_watchdog=1 параметрам загрузки ядра.

Второй (спасибо @womble за предложение) был форсирование ECC на

modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1

К сожалению, поддержка памяти ECC DDR3 в ядре 2.6.32-bpo.5-amd64 (Debian squeeze) отсутствует, пришлось использовать 3.2 из backports.

Я также добавил эти параметры в общие параметры ядра:

echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf