Настроен сервер icinga для запуска check_megaraid_sas. Прекрасно работает последние ~ 7 месяцев.
За это время появилось несколько сообщений «Невозможно прочитать выходные данные» по разным причинам, и во всех этих случаях статус был НЕИЗВЕСТНО, что привело к срабатыванию нашей системы предупреждений.
Недавно диски перешли из состояния предупреждения в состояние критического состояния и в состояние ОК:
На момент этого выпуска megaraidsas-status вернули следующее:
-- Arrays informations --
-- ID | Type | Size | Status
-- Disks informations
-- ID | Model | Status | Warnings
Однако я ожидал, что скрипт вернет «OK: Drives 0» (как предполагают некоторые комментарии пользователей - все еще ошибка, но другой подход к исправлению). Поскольку NRPE вернул «Невозможно прочитать вывод» и пометил его как «ОК», это заставляет меня думать, что это проблема с NRPE, а не со сценарием.
Есть ли способ убедить NRPE в том, что, когда он не получает данных в качестве ответа от проверки, проверка не удалась? Или у кого-то еще есть идеи относительно того, что могло случиться?
Проверяемый сервер был перезагружен, и я не уверен, проявится ли ситуация снова, чтобы проверить его.
Обычно это означает, что проверка вернула результаты (например, сообщения об ошибках, перемежающиеся выводом), которые нарушают формат вывода проверки nagios. su - для пользователя плагин мониторинга запускается как на удаленном сервере и проверяет вывод; если все в порядке, направьте его в hexdump -C, поскольку неожиданные управляющие символы могут сбить с толку nrpe.