Назад | Перейти на главную страницу

Что может вызвать зависание ядра на redhat 4?

Я должен решить неприятную проблему на «кластере» из десяти машин: одна из этих машин случайным образом зависает во время сложных вычислений, иногда все равно пинг, иногда нет.

Проблема была описана мне по телефону, я до сих пор не трогаю / не вижу эту машину, поэтому не могу сказать точнее. Похоже, что к ним не подключена (настоящая) клавиатура или монитор, поэтому я ничего не знаю о клавиатуре или сообщениях на мониторе.

Не волнуйтесь, мне действительно нужно предложение, где искать проблему, несколько предложений о том, что может вызвать зависание ядра на работающей машине.

Я также вижу эта почта, но похоже же нужно на иную ситуацию.

Мои идеи с этого момента:
- Проблема с аппаратным обеспечением (ОЗУ, ЦП, вентилятор и т. Д.)
- плохая конфигурация autofs
- плохая конфигурация nfs (?)
- наличие трояна / хакера / др.
- / dev / "swap" связан с / dev / zero
- ядру не хватает памяти (??)
- ошибка ядра

Другими словами, я пытаюсь представить, какое может произойти событие, которое может вывести из строя ядро ​​приложения, которое генерирует событие.

Какие повесить есть YOU испытывал раньше? Напиши мне!

TIA

Прежде всего, хотя RHEL 4 сам по себе довольно старый, он все еще поддерживается, и вы можете попробовать обновить его с помощью последних исправлений (см. Информация вики).

Паника / зависание ядра может быть вызвано множеством причин. Те, которые я испытал, в основном связаны с

  1. Проблема с памятью: установите (например) версию Ubuntu на компакт-диск и загрузите ее, просто запустите memtest86+, он активно проверяет память (для выявления проблемы может потребоваться некоторое время).

  2. Аппаратная проблема: вызывает неожиданные прерывания, которые либо переводят систему в безвозвратную ситуацию, либо отправляют выполнение ядра в «пространство», либо нарушают стек ...

  3. Проблема с модулем: неподходящий модуль (например, модуль, который не совсем соответствует аппаратному обеспечению, или модуль с ошибками) имеет привилегированный доступ и может зависнуть в системе. Старые ядра особенно подвержены риску (более новые версии лучше восстанавливаются при неисправности модуля).

Также были замечены загадочные (старые) зависания системы из-за

  1. Села батарея CMOS материнской платы (замените, дешево).

  2. Плохой сетевой кабель

Возможно, подходящее время для перехода на более новую систему (в настоящее время нет ничего плохого в наличии сервера с Ubuntu 10.04.1 LTS, например).

Существует бесчисленное множество способов подвешивания коробки RHEL 4 (или любой другой коробки). Вам нужно собрать больше информации. Начну с логов с момента зависания. Вы также можете настроить сторожевой таймер NMI, чтобы вызвать панику окна, если он зависает в ядре, и netconsole для записи сообщений консоли, когда это произойдет. Если система просто умирает под большой нагрузкой и перестает отвечать, не полностью зависая в самом ядре, вы можете настроить часы ожидания для запуска различных диагностических сообщений (сбрасываемых в журнал или через netconsole) или даже перезагружать компьютер, если он достигает определенной нагрузки порог.