У меня обычно установлены агенты Nagios на всех наших серверах Linux, поэтому мы получаем подробный отчет о том, что на них происходит в режиме реального времени, а также у нас есть исторические данные.
Однако есть один сервер RHEL 7, на котором мы не можем установить агент Nagios (или контролировать его по ssh и т. Д.), И на этом сервере средняя нагрузка увеличивается раз в несколько дней. Это веб-сервер, и мы узнаем, когда пользователи жалуются, что сайт загружается медленно. В большинстве случаев к моменту входа в систему и проверки загрузка возвращается в нормальное состояние.
Есть ли способ, используя доступные инструменты и журналы ОС, узнать, что вызвало скачок нагрузки?
Я просмотрел почти все файлы журналов, включая журналы Apache и т. Д., Но я не нашел в них ничего очевидного.
Есть ли какие-нибудь инструменты или демоны, которые могут дать мне больше информации о таких инцидентах?
Вы можете использовать Монит. Эта программа регулярно проверяет (с настраиваемым интервалом времени - 2 минуты, 5 минут ...) количество жизненно важных параметров системы, и loadavg
это я думаю даже по умолчанию.
Когда параметр (loadavg
) выходит за пределы регулируемого порога, по умолчанию вам будет отправлено уведомление по электронной почте. Если это благоприятно, вы можете войти через ssh и сделать top / htop /ps
и другие стандартные инструменты, чтобы получить быстрое и приблизительное представление о том, что происходит.
Второй вариант - настроить Monit's выполнение пользовательского скрипта вместо (или вместе с) отправки уведомления по электронной почте. Этот собственный сценарий может делать простые top -n 1 >> /tmp/performancefindings.txt
и у вас будет хорошая отправная точка для исследования средних высоких нагрузок.