Назад | Перейти на главную страницу

Мониторинг диска через опрос SNMP

Я использую SNMP (опрос, а не ловушки) для мониторинга сервера Snap с MIB-II (RFC 1213). Поскольку для этого устройства нет специализированного MIB, я застрял через стандартный MIB-II. Моя основная цель - опросить диски и убедиться, что они не отключены и не смонтированы. На самом деле я просто ищу здесь лучшие практики, так как я не очень хорошо разбираюсь в Linux.

Сервер моментальных снимков имеет RAID 1.

Я планирую отслеживать / dev / sda, / dev / sdb, / dev / sdc и т. Д. Начиная с OID: .1.3.6.1.2.1.25.3.2.1.3.1552 и выше. Прямо сейчас строка просто возвращает / dev / sda /, которую я сказал своему программному обеспечению, это правильная строка для возврата. Если диск 0 выйдет из строя, я предполагаю, что он больше не будет возвращать / dev / sda для .1.3.6.1.2.1.25.3.2.1.3.1552, по крайней мере, это то, на что я надеюсь.

Может ли кто-нибудь подтвердить мои подозрения по этому поводу? На самом деле у меня нет простого способа протестировать это без физической сборки ПК и отключения диска, поскольку ящики Linux, к которым у меня есть доступ, находятся в производстве.

Вы должны проверить MIB ресурсов хоста. OID, который вы упоминаете, является hrDeviceDescr поле. Если вы посмотрите дальше в этой MIB, вы увидите hrDeviceStatus, которое является целым числом, определенным следующим образом:

Текущее рабочее состояние устройства описывается этой строкой таблицы. Значение unknown (1) указывает, что текущее состояние устройства неизвестно. running (2) указывает на то, что устройство запущено и работает и что никаких необычных ошибок не известно. Состояние предупреждения (3) указывает на то, что агент был проинформирован операционным программным обеспечением (например, драйвером дискового устройства) о необычном состоянии ошибки, но устройство все еще находится в «рабочем состоянии». Примером может служить большое количество программных ошибок на диске. Значение тестирования (4) указывает, что устройство недоступно для использования, так как оно находится в состоянии тестирования. Состояние down (5) используется только тогда, когда агент был проинформирован о том, что устройство недоступно для использования.

Таким образом, вам, вероятно, следует лучше отслеживать следующий OID: .1.3.6.1.2.1.25.3.2.1.5.1552.