Я должен решить неприятную проблему на «кластере» из десяти машин: одна из этих машин случайным образом зависает во время сложных вычислений, иногда все равно пинг, иногда нет.
Проблема была описана мне по телефону, я до сих пор не трогаю / не вижу эту машину, поэтому не могу сказать точнее. Похоже, что к ним не подключена (настоящая) клавиатура или монитор, поэтому я ничего не знаю о клавиатуре или сообщениях на мониторе.
Не волнуйтесь, мне действительно нужно предложение, где искать проблему, несколько предложений о том, что может вызвать зависание ядра на работающей машине.
Я также вижу эта почта, но похоже же нужно на иную ситуацию.
Мои идеи с этого момента:
- Проблема с аппаратным обеспечением (ОЗУ, ЦП, вентилятор и т. Д.)
- плохая конфигурация autofs
- плохая конфигурация nfs (?)
- наличие трояна / хакера / др.
- / dev / "swap" связан с / dev / zero
- ядру не хватает памяти (??)
- ошибка ядра
Другими словами, я пытаюсь представить, какое может произойти событие, которое может вывести из строя ядро приложения, которое генерирует событие.
Какие повесить есть YOU
испытывал раньше? Напиши мне!
TIA
Прежде всего, хотя RHEL 4 сам по себе довольно старый, он все еще поддерживается, и вы можете попробовать обновить его с помощью последних исправлений (см. Информация вики).
Паника / зависание ядра может быть вызвано множеством причин. Те, которые я испытал, в основном связаны с
Проблема с памятью: установите (например) версию Ubuntu на компакт-диск и загрузите ее, просто запустите memtest86+
, он активно проверяет память (для выявления проблемы может потребоваться некоторое время).
Аппаратная проблема: вызывает неожиданные прерывания, которые либо переводят систему в безвозвратную ситуацию, либо отправляют выполнение ядра в «пространство», либо нарушают стек ...
Проблема с модулем: неподходящий модуль (например, модуль, который не совсем соответствует аппаратному обеспечению, или модуль с ошибками) имеет привилегированный доступ и может зависнуть в системе. Старые ядра особенно подвержены риску (более новые версии лучше восстанавливаются при неисправности модуля).
Также были замечены загадочные (старые) зависания системы из-за
Села батарея CMOS материнской платы (замените, дешево).
Плохой сетевой кабель
Возможно, подходящее время для перехода на более новую систему (в настоящее время нет ничего плохого в наличии сервера с Ubuntu 10.04.1 LTS, например).
Существует бесчисленное множество способов подвешивания коробки RHEL 4 (или любой другой коробки). Вам нужно собрать больше информации. Начну с логов с момента зависания. Вы также можете настроить сторожевой таймер NMI, чтобы вызвать панику окна, если он зависает в ядре, и netconsole для записи сообщений консоли, когда это произойдет. Если система просто умирает под большой нагрузкой и перестает отвечать, не полностью зависая в самом ядре, вы можете настроить часы ожидания для запуска различных диагностических сообщений (сбрасываемых в журнал или через netconsole) или даже перезагружать компьютер, если он достигает определенной нагрузки порог.