Иногда службы и хост перестают отвечать из-за низкой производительности сервера. Я имею в виду, если по какой-то причине (может быть много доступа к службам параллелизма, дорогостоящее резервное копирование на сервере или что-то еще, что потребляет тонны серверных ресурсов) производительность сервера сильно ухудшится, это может привести к тому, что сервер не сможет установить любую «нормальную сетевую связь» (без каких-либо стандартных тайм-аутов, определенных для такой связи).
Знание данных о производительности хоста (ЦП, память, ...) в случае их доступности в течение этого периода (хост не отключен и, несмотря на снижение производительности, все еще позволяет плагинам собирать данные о производительности) может быть очень полезно для системного администратора, чтобы попытаться определить причину проблема, или, по крайней мере, если производительность хоста была хорошей и вообще не мешала хосту / сервису.
Эта проблема может быть решена с помощью удаленного активного (NRPE) или удаленного пассивного (NSCA), если такие удаленные решения могут хранить (буферизовать) данные производительности для отправки на центральный сервер Nagios, когда это позволяют производительность хоста или сбой сети. Я прочитал документацию к обоим решениям и не могу найти никакой ссылки на такой буферный механизм, как и на то, что произошло в случае, если NSCA не может связаться с сервером Nagios.
Есть идеи, как решить эту нехватку информации? так полезно для судебно-медицинской экспертизы.
РЕДАКТИРОВАТЬ:
Мои вопросы не о том, какие инструменты я могу использовать для отладки проблем производительности или сбора данных о производительности для анализа, а о том, как собирать (с помощью Nagios) данные производительности хоста даже во время сбоя сети для последующего анализа (своего рода криминалистического анализа). Идея состоит в том, чтобы интегрировать такие данные в граферы Nagios, такие как pnp4nagios и NagiosGrapther. Я знаю, что могу установить такие инструменты, как Cacti, на каждом моем хосте и иметь своего рода избыточность сбора данных о производительности, но я действительно хочу избежать этого и попытаться решить все требования анализа производительности с помощью одного инструмента: Nagios
Я не уверен насчет Nagios, но если вы можете войти на сервер, вы получите следующие данные, которые помогут вам сузить проблему. С помощью приведенной ниже команды вы можете определить, кто потребляет больше ресурсов процессора и памяти. Или система находится в условиях OOM.
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo