Один из моих серверов nfs сегодня утром пропал из-под наблюдения. Я проверил это, и консоль зависла и не реагировала, и она, очевидно, разбилась.
Я включил и снова включил питание и проверил системный журнал, и, похоже, он просто вылетел без указания причины.
Есть ли какие-либо настройки ядра или отладки, которые я могу применить, чтобы попытаться отловить любое будущее повторение или эту проблему. (или любые рекомендации о том, как действовать)
Если он полностью вылетел, в журналах ничего не было, я бы сильно подозревал, что это связано с оборудованием. Я бы переустановил память, проверил, что вентиляторы работают правильно, чтобы охладить сервер, и, если это система серверного уровня, использовать диагностику для проверки оборудования (я знаю, что серверы Dell обычно проходят серию тестов, которые могут быть запускается, но это зависит от модели, будь то BIOS, загрузочный раздел или загрузочный компакт-диск)
Редко, редко, редко у меня происходил полный сбой Linux из-за отсутствия ответа без дампа ядра или чего-то еще в журналах. У меня были системы, которые сходили с ума из-за умирающего контроллера, переполнения памяти или чего-то еще, связанного с оборудованием, которое может легко сделать то, что вы описываете.
Проверьте свое оборудование, как сказал Барт. Кроме того, иногда не отвечающая машина может находиться в таком состоянии из-за слишком большой нагрузки. Я видел, как это делают некоторые почтовые серверы. Проверьте свою сеть, NFS может сильно вылететь, если сеть отключится, когда он что-то делает.
Если вам когда-нибудь понадобится сделать это с машиной снова, вспомните клавишу Magic Sysrq и фразу Raising Elephants Is So Utterly Boring. ALT + SysRQ + может творить чудеса с Linux-сервером, который по всем параметрам мертв. Эта фраза состоит в том, чтобы запомнить команды для использования с ALT + SysRQ:
R: take control of the keyboard
E: sends SIGTERM to all processes
I: sends SIGKILL to all processes
S: Sync (flush caches to disk, very important)
U: remount all FS read only
B: reboot!