Назад | Перейти на главную страницу

SNMPD работает, но не прослушивает случайные соединения

ОС: CentOS версии 5.7 (окончательная) Net-SNMP: net-snmp-5.3.2.2-14.el5_7.1 (из RPM)

Периодически моя NMS уведомляет меня о том, что на этой машине отключился протокол SNMP. Услуга восстанавливается от 10 до 30 минут. Моя NMS также пингует и проверяет SSH, и на эти службы не влияет сбой SNMP.

Файл журнала SNMPD показывает, что он работает и, по-видимому, принимает пакеты (либо от локальных агентов из 127.0.0.1, либо от моей NMS на 172.16.37.37), однако попытка snmpwalk локально или из системы NMS завершается ошибкой с тайм-аутом.

У меня есть 7 из этих серверов, на которых работает смесь CentOS 5.7 и RHEL 5.7 с этой конкретной версией Net-SNMP, установленной из RPM - ни у одного из них нет этой проблемы, кроме этой. 5 машин (включая систему NMS и этот проблемный сервер) находятся в одной стойке и подключены с помощью одного коммутатора.

Перезапуск SNMPD не решает проблему - в конечном итоге она устраняется сама собой. Есть предложения, где я могу начать диагностику проблемы? Это закрытая подсеть, поэтому IPTables не используется. Конфигурация SNMPD ниже:

# Following entries were added by HP Insight Management Agents at
#      Tue May 15 10:58:17 CLT 2012
dlmod cmaX /usr/lib64/libcmaX64.so
rwcommunity public 127.0.0.1
rocommunity public 127.0.0.1
rwcommunity 3adRabRu 172.16.37.37
rocommunity 3adRabRu 172.16.37.37
rwcommunity 3adRabRu 172.16.37.36
rocommunity 3adRabRu 172.16.37.36
trapcommunity callmetraps
trapsink 172.16.37.37 callmetraps
trapsink 172.16.37.36 callmetraps
syscontact Lukasz Piwowarek
syslocation Santiago, Chile
# ---------------------- END --------------------
agentAddress udp:161
com2sec rwlocal default public
com2sec rolocal default public
com2sec subnet  default 3adRabRu
group   rwv2c   v2c             rwlocal
group   rov2c   v2c             rolocal
group   rov2c   v2c             subnet
view    all     included        .1
access  rwv2c   ""      any             noauth          exact   all     all     none
access  rov2c   ""      any             noauth          exact   all     none    none

По этому поводу нужно решить несколько проблем.

Глядя на вашу конфигурацию, я вижу OpenNMS как решение для мониторинга, аппаратное обеспечение сервера HP ProLiant, возможные проблемы с версией пакета и драйверами, а также пару настроек, которые вы могли бы внести в параметры snmpd.

Вы используете самую последнюю версию OpenNMS? Текущая версия - 1.10.3. Машина, которую вы опрашиваете в системе NMS, не имеет отношения? Была ли это проблема со старой версией OpenNMS или это новая установка?

Я также вижу модуль для Агенты управления HP ProLiant загружается в первую строку вашего snmpd.conf config. Это подпитывает пакет поддержки ProLiant и агентов HP по здоровью. Это единственный сервер HP, за которым вы наблюдаете? Чтобы проверить конфигурацию HP snmp, можно получить доступ к домашней странице управления системой по адресу https: //server.ip: 2381 ? Правильно ли отображаются системные датчики (температура, хранение, МОТ)? В противном случае проблема с настройкой SNMP.

На стороне OpenNMS для опросчика доступны невероятно гибкие параметры ведения журнала. Мы можем помочь вам получить необходимую информацию, но я не думаю, что это общая проблема OpenNMS, если она затрагивает только один узел. Вы можете удалить узел из базы данных и заново открыть его, чтобы проверить эту теорию.

Для рассматриваемого хоста вы можете изменить /etc/sysconfig/snmpd.options к уменьшить многословие журнала в случае, если это проблема.


Я предполагаю, что это проблема опроса OpenNMS / БД или взаимодействие агентов HP и snmp в единой проблемной системе.

Я нашел причину, но не нашел решения. Кажется, MySQL делает всю систему не отвечающей. Как ему удается влиять на все, от SNMP до SSH и общую скорость отклика системы (команды, которые должны быть мгновенными, требуют более 30 секунд для ответа), не понимаю. Это двухпроцессорный компьютер с 96 ГБ ОЗУ, который используется в 4-часовых пакетах чрезвычайно тяжелой корреляции данных, но после того, как мы запустим нашу программу (которая выполняет несколько миллионов вставок в MySQL), вся система просто сканирует, даже если она почти простаивает. Перезапуск MySQL сразу устраняет проблему.

Вы пробовали увеличить тайм-аут SNMP и повторные попытки на NMS? Возможно, ваш сервер иногда не отвечает достаточно быстро или ваша сеть теряет пакеты.

И, как уже указывал @rnxrx, вам нужно искать порт 161, чтобы узнать, прослушивает ли snmpd.