Назад | Перейти на главную страницу

Найдите основную причину высокой средней нагрузки, которая случилась в прошлом на сервере Linux

У меня обычно установлены агенты Nagios на всех наших серверах Linux, поэтому мы получаем подробный отчет о том, что на них происходит в режиме реального времени, а также у нас есть исторические данные.

Однако есть один сервер RHEL 7, на котором мы не можем установить агент Nagios (или контролировать его по ssh и т. Д.), И на этом сервере средняя нагрузка увеличивается раз в несколько дней. Это веб-сервер, и мы узнаем, когда пользователи жалуются, что сайт загружается медленно. В большинстве случаев к моменту входа в систему и проверки загрузка возвращается в нормальное состояние.

Есть ли способ, используя доступные инструменты и журналы ОС, узнать, что вызвало скачок нагрузки?

Я просмотрел почти все файлы журналов, включая журналы Apache и т. Д., Но я не нашел в них ничего очевидного.

Есть ли какие-нибудь инструменты или демоны, которые могут дать мне больше информации о таких инцидентах?

Вы можете использовать Монит. Эта программа регулярно проверяет (с настраиваемым интервалом времени - 2 минуты, 5 минут ...) количество жизненно важных параметров системы, и loadavg это я думаю даже по умолчанию.

Когда параметр (loadavg) выходит за пределы регулируемого порога, по умолчанию вам будет отправлено уведомление по электронной почте. Если это благоприятно, вы можете войти через ssh и сделать top / htop /ps и другие стандартные инструменты, чтобы получить быстрое и приблизительное представление о том, что происходит.

Второй вариант - настроить Monit's выполнение пользовательского скрипта вместо (или вместе с) отправки уведомления по электронной почте. Этот собственный сценарий может делать простые top -n 1 >> /tmp/performancefindings.txt и у вас будет хорошая отправная точка для исследования средних высоких нагрузок.