Я использую check_mk_agent для мониторинга сервера с IPMI и установленными freeipmi-tools. Насколько я могу судить, мониторинг случайным образом не обнаруживает никакого значения, возвращаемого датчиком IPMI «Temperature_PCH_Temp».
Это проблема, поскольку это приводит к КРИТИЧНОМУ состоянию, запускающему уведомление. Прерывание длится только на одну проверку, всегда нормально следующее. Температура не находится в пограничной области, и ни показания до отказа, ни после этого не показывают температуру, которая имеет тенденцию выходить за пределы порогового значения.
Есть ли у кого-нибудь представление о том, что может быть причиной такого поведения и как его предотвратить?
Версия 01.78 Supermicro IPMI для моего X9DRD-iF. Вы можете скачать его на http://www.supermicro.com/about/policies/disclaimer.cfm?url=/support/resources/getfile.aspx?ID=1940
Вы действительно настроили повторные попытки проверки - поэтому она не предупреждает вас только потому, что у нее был короткий перерыв, верно?
Кстати, я думаю, что Альберт Чу прав насчет того, что N / A обрабатывается неправильно. Вероятно, он оценивается только при первой инвентаризации системы; в списках рассылки check_mk есть письмо с соответствующими исправлениями от пользователя по имени Бернхард Шмидт.
Но, как показывает эта ветка, такие проблемы в основном всегда связаны с проблемами оборудования :)
Инструменты FreeIPMI ipmi-sensor / ipmimonitoring сообщают «Н / Д», когда обнаруживают датчик, показания которого не возвращены. Хотя это случается редко (и, как говорит voretaq7, это, скорее всего, неисправный датчик), для датчика IPMI вполне разумно просто сказать: «У меня нет данных для вас прямо сейчас».
Я не могу говорить о том, что находится в скрипте check_mk_agent, возможно, он считает "N / A" критическим и сообщает об этом таким образом.
Также возможно, что удаленная система (если она заблокирована) возвращает вам недопустимые значения, что может привести к "КРИТИЧЕСКОМУ" состоянию при использовании --output-sensor-state.
Вы можете посмотреть и посмотреть, помогут ли вам в этой ситуации параметры --ignore-not-available-sizes или --ignore-unrecognized-events.
Звучит как аппаратный сбой (нестабильная плата IPMI, неисправный датчик) - вам следует связаться с поставщиком оборудования и сообщить о проблеме, чтобы узнать, можно ли получить замену.