У меня часто возникают проблемы с серверами, которые становятся недоступными из-за высокой загрузки процессора, которые затем приходится перезапускать или отключать.
Я использую collectd и graphite для сбора статистики, но я не нашел способа получить такую информацию в db временных рядов.
Есть ли инструмент или метод ретроспективного мониторинга основных процессов?
Я бы предложил использовать netdata и установка временного окна на более длительный период. Я считаю, что по умолчанию используется последний час, но я настроил свои серверы на хранение данных в течение 12 часов.
Основной показатель, который вы можете использовать, - это процент ЦП на группу приложений в зависимости от времени: