В течение последнего месяца одна из моих машин Debian Squeeze (Linux 2.6.32-bpo.5-amd64) дважды зависала, жесткий. Нет ответа на ARP, темную консоль, Caps Lock, Num Lock не работает, Магия SysRq неэффективен. Смена ядра на 3.2.0-0.bpo.2-amd64 из бэкпортов тоже не помогла.
Мониторинг температуры и нагрузки не показывает никаких скачков до сбоя.
Как мне диагностировать и устранить такую проблему?
Является netconsole моя единственная ставка?
РЕДАКТИРОВАТЬ: Я уже отключил гашение экрана:
#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0
и
setterm -blank 0
на физической консоли.
ОБНОВИТЬ:
На этот раз он заблокирован, на экране все еще отображается запрос на вход. После прошлых проблем я без проблем провел 6-часовой нагрузочный тест с тестом BOINC (Prime 95).
Поскольку зависания происходили все чаще и чаще, проблема, вероятно, была вызвана неисправной материнской платой или, что менее вероятно, процессором. После замены этих компонентов проблемы исчезли.
Нашел два возможных решения, сообщу, сработали ли они. РЕДАКТИРОВАТЬ: Они не
Во-первых nmi_watchdog включен путем добавления nmi_watchdog=1
параметрам загрузки ядра.
Второй (спасибо @womble за предложение) был форсирование ECC на
modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1
К сожалению, поддержка памяти ECC DDR3 в ядре 2.6.32-bpo.5-amd64 (Debian squeeze) отсутствует, пришлось использовать 3.2 из backports.
Я также добавил эти параметры в общие параметры ядра:
echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf