Назад | Перейти на главную страницу

check_mk IPMI PCM датчик чтения случайным образом не работает

Я использую check_mk_agent для мониторинга сервера с IPMI и установленными freeipmi-tools. Насколько я могу судить, мониторинг случайным образом не обнаруживает никакого значения, возвращаемого датчиком IPMI «Temperature_PCH_Temp».

Это проблема, поскольку это приводит к КРИТИЧНОМУ состоянию, запускающему уведомление. Прерывание длится только на одну проверку, всегда нормально следующее. Температура не находится в пограничной области, и ни показания до отказа, ни после этого не показывают температуру, которая имеет тенденцию выходить за пределы порогового значения.

Есть ли у кого-нибудь представление о том, что может быть причиной такого поведения и как его предотвратить?

Версия 01.78 Supermicro IPMI для моего X9DRD-iF. Вы можете скачать его на http://www.supermicro.com/about/policies/disclaimer.cfm?url=/support/resources/getfile.aspx?ID=1940

Вы действительно настроили повторные попытки проверки - поэтому она не предупреждает вас только потому, что у нее был короткий перерыв, верно?

Кстати, я думаю, что Альберт Чу прав насчет того, что N / A обрабатывается неправильно. Вероятно, он оценивается только при первой инвентаризации системы; в списках рассылки check_mk есть письмо с соответствующими исправлениями от пользователя по имени Бернхард Шмидт.

Но, как показывает эта ветка, такие проблемы в основном всегда связаны с проблемами оборудования :)

Инструменты FreeIPMI ipmi-sensor / ipmimonitoring сообщают «Н / Д», когда обнаруживают датчик, показания которого не возвращены. Хотя это случается редко (и, как говорит voretaq7, это, скорее всего, неисправный датчик), для датчика IPMI вполне разумно просто сказать: «У меня нет данных для вас прямо сейчас».

Я не могу говорить о том, что находится в скрипте check_mk_agent, возможно, он считает "N / A" критическим и сообщает об этом таким образом.

Также возможно, что удаленная система (если она заблокирована) возвращает вам недопустимые значения, что может привести к "КРИТИЧЕСКОМУ" состоянию при использовании --output-sensor-state.

Вы можете посмотреть и посмотреть, помогут ли вам в этой ситуации параметры --ignore-not-available-sizes или --ignore-unrecognized-events.

Звучит как аппаратный сбой (нестабильная плата IPMI, неисправный датчик) - вам следует связаться с поставщиком оборудования и сообщить о проблеме, чтобы узнать, можно ли получить замену.