Как мне заставить мои серверы HP отправлять мне электронное письмо при выходе из строя диска?

В идеале, с максимально простой установкой и без перезагрузки серверов. В основном для DL380 G5's если это поможет.

Это немного зависит от операционных систем, которые вы используете на серверах, но в целом можно получать предупреждения от серверов HP ProLiant и контроллеров Smart Array RAID.

Полный список поддерживаемых драйверов и программного обеспечения для вашего Здесь перечислены системы DL380 G5..

SNMP и решение для мониторинга - лучший подход ... Но вы можете дополнить это некоторыми инструментами HP. HP предлагает HP Systems Insight Manager, который доступен для загрузки и также поставляется с серверами. Это идеально подходит для наборов серверов. Если вам нужны разовые оповещения без создания инфраструктуры управления или мониторинга, вы можете просто установить Агенты управления HP (он же Пакет поддержки ProLiant).

Для автономных систем Linux агенты отправляют ловушки по электронной почте. Обычно я настраиваю пакет поддержки со значениями по умолчанию или специальный комплект, затем отредактируйте /opt/hp/hp-snmp-agents/cma.conf и изменить trapemail строка, указывающая на адрес получателя:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Если вы используете Linux и не хотите устанавливать полный пакет управления HP, вы можете разработать сценарий для cciss_vol_status утилита для запроса статуса контроллера / диска. Также см: Установка агентов HP на OpenFiler

Ознакомьтесь с HP Insight Manager

https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#

Я считаю, что это должно работать с вашими серверами.

Я использовал легкую программу, которую @ewwite упомянул в своем ответе: cciss_vol_status

Если вы будете следовать прилагаемым инструкциям по УСТАНОВКЕ, сценарий будет помещен в /usr/local/bin/cciss_vol_status.

Вот скрипт-оболочка, который я использую для поиска вывода cciss_vol_status и отправки электронного письма, если какой-либо массив имеет статус FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Вызовите указанный выше скрипт в cron. Проверяю каждые две минуты:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Мы используем HP System Insight Manager чтобы проверить, работают ли наши HP, но не более того. Я обнаружил, что агент Linux является для нас излишним, поскольку у нас есть другие решения для мониторинга, поэтому приведенный выше сценарий хорошо служит своей конкретной цели.

ОБНОВИТЬ

Просто совет по устранению неполадок на случай, если вы столкнетесь с этим. Этот сценарий оказался полезным сегодня утром, когда я получил электронное письмо о неисправном массиве с:

Достигнут лимит грязного кеша

Устройство было доступно только для чтения и не отображалось в /proc/partitions. Я перезагрузил сервер и при загрузке увидел следующие сообщения:

Логические диски отключены из-за возможной потери данных. Выберите «F1», чтобы продолжить с отключенными логическими дисками. Выберите «F2», чтобы принять потерю данных и повторно включить логические диски.

Я выбрал F2, и RAID был в порядке и смонтирован при загрузке.

установить smartmontools. Отправляет вам сообщение ДО выхода из строя диска.