У меня есть сервер с аппаратным RAID-контроллером HP Smart Array. Чтобы следить за его статусом, я использую cpqarrayd. /etc/default/cpqarrayd
содержит DAEMON_OPTS="-t localhost:162"
для отправки ловушек SNMP, когда что-то происходит. Ловушки обрабатываются snmptrapd, /etc/snmp/snmptrapd.conf
содержит
disableAuthorization yes
traphandle default mailx -s "SNMP Trap" admin@example.com
Полученные таким образом электронные письма содержат ловушки SNMP, но они не читаются человеком, и невозможно сказать, о чем они, и были ли они отправлены cpqarrayd или нет. Можно ли отправлять удобные для чтения электронные письма при изменении статуса RAID?
В cron.hourly помещен следующий скрипт:
#!/bin/sh
CCISS_DEVICE=/dev/cciss/c0d1
STATUS_FILE=/var/cciss_vol_status
TMP_FILE=$TMPDIR/status-$$.$RANDOM
mv $STATUS_FILE $TMP_FILE
cciss_vol_status $CCISS_DEVICE >$STATUS_FILE
if ! cmp -s $STATUS_FILE $TMP_FILE ; then
mailx -s "CCISS status changed" admin@example.com <$STATUS_FILE
fi
rm $TMP_FILE
Сначала посмотрите: Как мне заставить мои серверы HP отправлять мне электронное письмо при выходе из строя диска?
Короче говоря, агенты управления HP SNMP, которые устанавливаются как часть Пакет обновления для ProLiant или Пакет компонентов управления (Debian) предоставит вам надлежащие предупреждения о состоянии системы. Сюда входят ловушки для дисков, контроллера массива, вентилятора, температуры, источников питания, ILO, сетевых карт и т. Д.
Это полностью поддерживается Debian. Вы найдете загрузки в Репозиторий HP Software Delivery.
Две части к этому (настраивается автоматически установщик):
В твоем snmpd.conf
файл:
# Following entries were added by HP Insight Management Agents at
# Thu Mar 18 04:14:43 PDT 2010
dlmod cmaX /usr/lib64/libcmaX64.so
Это регистрирует агентов работоспособности HP с помощью SNMP.
И /opt/hp/hp-snmp-agents/cma.conf
файл:
############################################################
#
# cma.conf: HP Insight Management Agents configuration file
#
############################################################
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' alerts@brazzers.com
Типичные электронные письма с предупреждениями о RAID будут выглядеть так:
Trap-ID=3040
Accelerator Board Battery status change, slot number: 1.
Battery failed. Status: Failed..
или
Trap-ID=3034
Logical Drive Status Change: Slot 1, Drive: 2.Status is now Rebuilding.
или
Trap-ID=3034
Logical Drive Status Change: Slot 1, Drive: 1.Status is now OK.
РЕДАКТИРОВАТЬ:
Похоже, у вас проблемы с ProLiant 100-й серии, агентами HP Health и Debian. Это поддерживаемое решение, но в зависимости от того, как вы установили и настроили решение, у тебя могут быть проблемы. Учитывая это, вы, вероятно, можете просто установить cciss_vol_status утилиту и запускайте периодическую проверку через cron.
snmptt (переводчик прерываний SNMP) отличный маленький инструмент для этого. Вы можете научить его типичным OID и сообщениям и перевести их в какое-нибудь разумное сообщение. Взгляните и посмотрите, подходит ли это для ваших нужд.
РЕДАКТИРОВАТЬ: О, если у тебя еще нет, иди и скачать SNMP MIB для вашего устройства и вставьте его /usr/share/snmp/mibs
каталог. Затем перезапустите snmpd и snmptrapd.