Назад | Перейти на главную страницу

Что проверять после сбоя сервера linux?

Мой Linux-сервер (debian 5) остановился, и его пришлось перезагрузить.

Посоветуйте, пожалуйста, что проверить, чтобы узнать, что произошло. Обычные подозреваемые, такие как /var/log/messages, syslog, и kern.log. Не могли бы вы мне только намекнуть, что до отказа средняя нагрузка резко выросла до более 100? Не знаю, где искать дальше.

Вам необходимо предоставить дополнительную информацию о конфигурации вашего сервера и опубликовать эти журналы. Как узнать, что средняя загрузка стала высокой?

Симптом «рост средней нагрузки до более чем 100 до отказа» может иметь множество причин, но бывают частые.

Во-первых, какова средняя нагрузка?

Я рекомендую посмотреть этот пост, чтобы получить дополнительную информацию по этому вопросу: https://superuser.com/questions/23498/what-does-load-average-mean-in-unix-linux

Средняя загрузка - это показатель того, сколько процессов в настоящее время находятся в состоянии ожидания. Очень высокая средняя загрузка указывает на исчерпание ресурсов, и распространенной причиной этого исчерпания ресурсов является длительное (или бесконечное) время ожидания завершения операций ввода-вывода.

Что могло вызвать это?

  • Ожидание ввода-вывода может быть из-за сбоя монтирования NFS или сбоя жесткого диска. Возможно, вы стали жертвой нападения.
  • Атаки вроде Slowloris имеют тенденцию исчерпывать пул дескрипторов файлов и могут зависать от операций ввода-вывода на сервере.
  • Обратите внимание и на вилочные бомбы. Если вы пострадали от форк-бомбы и ваша память была исчерпана, вы можете увидеть следы «OOM Killer», работника ядра, который жертвует процессами, чтобы освободить память для системы, когда все остальное вышло из строя. В некоторых настройках этот OOM Killer может перезагрузить систему.

Где смотреть?

Это действительно зависит от конфигурации вашей системы и среды. Вы не предоставили достаточно подробностей в своем вопросе чтобы ответить на этот конкретный вопрос. Но вот несколько идей:

  • Сначала проверьте все свои жесткие диски. Запустите на них полные SMART-тесты.
  • Если у вас есть аппаратный RAID, проверьте журнал вашего RAID-контроллера.
  • Если вы размещаете веб-службы, проверьте историю использования полосы пропускания и количество запросов.
  • Если у вас есть удаленные сетевые подключения (sshfs, NFS), проверьте их надежность
  • Если вы размещаете пользовательские оболочки на своем сервере, проверьте их .bash_history (Это можно подделать.)
  • Если этот сервер является виртуальной машиной, проблема может быть связана не с вашим сервером, а с вашим поставщиком виртуальных услуг.