Назад | Перейти на главную страницу

У вас есть творческое использование нагио?

Я ищу вдохновения в нестандартных применениях систем мониторинга, таких как nagios, которые обычно используются для проверки, отвечает ли HTTP и т. Д. Мне любопытно, как люди взяли простую структуру nagios и работают с ней неожиданными способами, чтобы я мог украсть одолжить их.

Раньше я хранил копию списка моих друзей на Facebook и подписчиков в Twitter, а также отправлял оповещения Nagios, если меня исключили из друзей / отписались.

Я использую nagios для мониторинга высокопроизводительного вычислительного Linux-кластера из 1100 узлов. Nagios используется для проверки процесса sshd, состояния SMART жесткого диска, состояния сети Infiniband, общей файловой системы и использования диска. Если какой-либо из этих тестов не проходит, узел автоматически удаляется из производственного пула планировщика заданий, чтобы его можно было обслужить. Пока это работает довольно хорошо. До внедрения Nagios в кластере у нас было много жалоб на то, что программы не запускались или сразу вылетали из строя. После его внедрения к нам почти не жаловались.

Я также использую Nagios для мониторинга некоторых экземпляров Xen dom-U. Если виртуальная машина dom-U выйдет из строя, Nagios автоматически перезагрузит виртуальную машину.

не мой, но этот это самое творческое использование nagios, о котором я когда-либо слышал. Снимаю шляпу перед этим парнем!

Что именно ты имеешь ввиду? Я написал несколько скриптов, которые отслеживают разные вещи, кроме HTTP. Я даже создал своего рода монитор «URL-содержимого» (очень простой), который просто проверяет определенный фрагмент текста, а затем, если он сообщает менее 1 (0) экземпляров текста, он сообщает как «вниз», а если больше 1, он сообщает как «вверх».

Написание сценариев nagios можно выполнять практически на любом языке.

Я собираю данные о производительности в данные rrd. Поэтому я сделал несколько проверок, чтобы прочитать несколько точек данных из недавних проверок и найти изменения в тенденциях - эти сценарии могут быть полезны. По сути, это автоматизированный способ чтения графиков.

Возможно, еще одна вещь, которая могла бы заинтересовать людей:

Я делаю здесь резервные копии всей инфраструктуры. После завершения резервного копирования Dirvish я проверяю результаты резервного копирования с помощью небольшого скрипта и отправляю результаты с машины резервного копирования на машину nagios.

На сервере nagios для этого определена пассивная проверка. Возможно, самая интересная вещь здесь: я определил freshness_threshold с 93600 (= 26 ч) и check_command с участием check_dummy_args!2!'Last backup cycle too long ago' (и конечно check_freshness с 1). Таким образом, я получаю автоматические уведомления, если резервное копирование занимает слишком много времени или не запускалось без опроса.

Помимо всех обычных и скучных вещей, у меня есть монитор, чтобы проверить, не наступил ли день SysAdm, который отправляет и оповещает всех моих пользователей.

У меня есть планы также реализовать звуковое оповещение с фестивалем для действительно опасных отказов, и в планах следить за присутствием босса в штаб-квартире. Но они не любят платить мне за розыгрыши

Один из примеров, о котором я слышал, - это парень, который установил проверки nagios, чтобы отслеживать на своем форуме нездоровую активность, такую ​​как большое количество не ответивших на темы и среднее время между сообщениями.

Вот у меня SMS-шлюз, использующий некоторые USB-модемы. Конечно, я слежу за модемами и за самим шлюзом. Поскольку все наши SIM-карты, используемые там, имеют контингент из 1000 бесплатных SMS в месяц, я отслеживаю количество уже отправленных SMS через обычный веб-интерфейс нашего оператора мобильной сети (небольшой Perl-скрипт с WWW :: Mechanize). Если на одной SIM-карте больше нет бесплатных SMS для отправки, она отключается с помощью nagios - если веб-интерфейс оператора мобильной сети сообщает nagios, снова нужно отправить 1000 бесплатных SMS, модем снова активируется. Совместно с nagios-grapher у меня тоже хорошая статистика ...

У меня есть множество пассивных сервисов для проверки состояния актуальности файлов и одна активная служба для создания отчета о состоянии файлов. Активная служба выполняет сценарий, который запускает отчет и выгружает результаты в командный файл, таким образом я получаю уведомление, если (1) отчет не удалось запустить и (2) я получаю разбитый результат всех запущенных файлов запросы против. Проверка выполняется каждые 5 минут, а статусы файлов обновляются каждые 5 минут. Работает очень хорошо.

Я использую ту же концепцию при определении файлов для извлечения из внешних источников (http, ftp и т. Д.). Вставьте сценарий с необходимым интервалом повтора в NAGIOS, который просматривает каталоги на удаленных ресурсах в поисках файлов, которые нам нужно извлечь. Если он ничего не находит, предупреждайте, если он что-то находит, выйдите из ОК и выполните работу, чтобы поместить запрос на перенос в нашу очередь.

И помимо всего этого, у меня также есть множество тупых проверок «сколько лет этому файлу» или «сколько лет этому каталогу», и я их очень ненавижу.

У нас были и Nagios, и Solarwinds в качестве наших основных систем мониторинга, в последнее время, когда я работал в NOC. Solarwinds отлично подходил для мониторинга систем Windows, но был отчасти ненадежным, поэтому мы много отслеживали между двумя системами, чтобы они контролировали друг друга. Множество скриптов Python, выполняющих SQL-запросы к базе данных Solarwinds, чтобы убедиться, что она не содержит устаревших данных.

Вы также можете использовать «сценарий проверки» Nagios, чтобы запустить обновление программного обеспечения на компьютере, чтобы убедиться, что он использует текущую версию того, что вы хотите, через регулярные промежутки времени.

На наших серверах NFS не было определенного набора монтировок, который был бы постоянно «правильным», поэтому скрипты проверки файлового сервера были настроены так, чтобы всегда выдавать предупреждение при изменении списка экспортируемых файловых систем. Таким образом, парни, работающие на этих машинах, всегда получали уведомления, когда что-то было добавлено или удалено. Если бы они работали на машине в то время, они бы проигнорировали предупреждение. Если бы они не были, они бы это исправили. Концепция «оповещения при дельте» вместо «оповещения о состоянии» помогла снизить некоторые из наших накладных расходов на связь для такого рода вещей.

У нас были круглосуточные обезьяны NOC, которые следили за всем, поэтому у нас также было периодическое сообщение «электронная почта работает», которое они получали по расписанию, и они вручную запаниковали бы, если бы ни один из автоматических наблюдателей не заметил, что электронная почта была сломана. Такого рода вещи легко настроить как «сценарий проверки», даже если возвращаемое значение ОК из сценария не говорит вам наверняка, что все в порядке. Если у вас нет запасных тел, чтобы проверить это вручную, вы также можете использовать скрипт проверки «отправить электронную почту» и сценарий проверки «проверить электронную почту», которые работают согласованно, при этом сценарий проверки электронной почты предупреждает о высоких задержках доставки. Это не такая полная гарантия, что система работает от начала до конца, как если бы кто-то действительно читал ее на своем Blackberry и Outlook, но он покрывает большинство возможных проблем.

Многие вещи Nagios действительно будут относиться к конкретным сайтам, типа «увидеть зуд, почесать зуд». Вы просто должны быть немного практичным мечтателем.

Я мог бы попробовать написать чек нагиос, чтобы очистить армейский корпус инженеров данные для местной плотины и предупреждаю об этом. Особенно актуально сейчас, когда я живу недалеко от поймы.