У меня есть сервер, выполняющий несколько задач по поступающему на него трафику.
Последнее время сервер тормозит. Когда система давится, она перезагружается - это оставляет мне мало значимой информации относительно патологии удушья (это определенно не насильственный сбой).
Какой инструмент, по вашему опыту, помог вам сохранить значимые данные о системном дросселе.
Это может быть потребление памяти, «ps», «top» или любой другой параметр.
Имейте в виду, что сценарий, который просто выводит несколько длинных команд (ps -a) то-то и так, может использовать большую память и его сложно анализировать.
Установите SAR, по умолчанию он предоставляет моментальные снимки данных каждые 10 минут, но вы можете изменить скорость получения информации с помощью задания cron.
Он предоставит много полезных данных, таких как память, загрузка ЦП и статистика дискового ввода-вывода.
вам нужен исторический анализ наиболее распространенных параметров системы, я бы порекомендовал MUNIN, который предоставляет графики наиболее распространенных системных ресурсов через Интернет, за которыми вы можете постоянно следить, чтобы увидеть, какой процесс / какая служба подавляет ресурсы и какой ресурс.
После этого я бы рекомендовал просмотреть -f файлы системного журнала, что вызывает эту проблему.
Иногда мне кажется, что SAR немного неадекватен. Я встречал случаи, когда вам нужно было полное представление о том, что происходит в вашей системе. Тогда пригодятся такие команды, как top, ps, vmstat, netstat, iostat, iotop. Обычно я записываю эти команды в файл. Теперь, если пространство для вас является ограничением, существует служба под названием SeaLion
которые выполняют все вышеперечисленные команды и сохраняют их в облаке. Вы можете получить доступ к этим данным из вашего браузера.
Также хотелось бы отметить другие услуги, такие как Nagios
, Munin
, New Relic
, Server density
который также собирает статистику с вашего компьютера, что может пригодиться при отладке проблемы.