Я провел некоторое исследование nagios, opennms и zenoss, но не уверен, что нашел то, что ищу.
Сейчас для меня основной движущей силой является возможность отслеживать резервные копии. Сюда входят mysql, mssql и, возможно, резервные копии некоторых файловых систем.
У нас есть инструмент, который обертывает процесс резервного копирования для этих различных систем и собирает статистику. Итак, такие предметы, как:
Я хочу иметь возможность A) получать уведомления, если задания не выполняются в соответствии с расписанием B) иметь возможность устанавливать пороговые значения для статистики, которые будут запускать уведомления C) Я хочу иметь возможность отслеживать тенденции и строить графики статистики
Я планирую отправить эту информацию в приложение для мониторинга через HTTP POST. Или приложение мониторинга может также извлечь его из файла журнала.
Однако у нас будут другие процессы с другой «произвольной» (с точки зрения системы мониторинга) статикой, которые нужно будет отслеживать и отслеживать, поэтому гибкость очень важна.
Инструмент или инструменты также должны иметь возможность выполнять общий мониторинг и отслеживание тенденций сетевых интерфейсов, нагрузки на сервер и т. Д. Как только мы получим мониторинг резервного копирования, мы захотим включить и эти элементы.
Спасибо.
Следовать за:
Решил попробовать в указанном порядке:
Отправлю ответ, как только приму решение, может пройти некоторое время, пока это не произойдет.
это должно быть довольно легко настроить с помощью zabbix.
Установка пользовательских (и очень мощных) пороговых значений проста - вы можете написать любое выражение, которое вам нравится, поэтому возможно что-то вроде «уведомить меня, если более чем на 3 из этих 5 серверов не было успешной резервной копии». вы также можете использовать 6 различных уровней серьезности и эскалации для получения гибких уведомлений и предупреждений.
zabbix имеет объединенные возможности хранения и визуализации данных - все данные хранятся в базе данных, и для построения графика единой метрики вам не нужна никакая конфигурация - вы просто получаете график для этого «бесплатно». для длительного хранения и анализа тенденций вычисляются средние значения за один час.
Что касается загрузки ваших данных о резервных копиях в zabbix, существует несколько возможностей. вы можете читать его из файлов, вы можете запускать собственные команды, вы можете отправлять его с контролируемой машины с помощью утилиты командной строки zabbix_sender ... и может быть еще несколько возможных подходов.
расширение просто - любая пользовательская команда, возвращающая данные, может использоваться для сбора, хранения и визуализации этих данных.
конечно, возможен общий мониторинг операционных систем, приложений, устройств snmp и ipmi и так далее.
Вместо того, чтобы писать собственное решение для мониторинга, я настоятельно рекомендую вам использовать существующий инструмент, чтобы все основные функции мониторинга и оповещения уже были реализованы. Если вы выберете Nagios, вы получите бесплатный базовый мониторинг серверных и сетевых ресурсов, а следующие плагины должны предоставить вам большую часть остального, что вам нужно:
check_file_ages_in_dirs сообщит вам, существуют ли файлы резервных копий; вот Сообщение блога Я написал несколько основных примеров.
check_file может отслеживать размер и содержимое файла (с помощью регулярных выражений), поэтому вы можете выводить статистику резервного копирования в файл и отслеживать их.
Единственное, чего вы не получите от Nagios, так это построения графиков и трендов; Рекомендую посмотреть Мунин для этого, поскольку он прост в установке и, как и Nagios, имеет множество дополнительных плагинов.
nagios может отслеживать тенденции, но вам нужно вывести perfdata (http://nagios.sourceforge.net/docs/1_0/perfdata.html) в вашем плагине. Если вы используете pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start тогда все будет нарисовано для вас.
Я обнаружил, что с помощью opsview http://www.opsview.org/ намного проще, чем настраивать nagios и pnp4nagios. Особенно, если вы единственный администратор, разбирающийся в Linux. Opsview - это nagios с отличным веб-интерфейсом, который позволяет выполнять практически все действия из веб-браузера. Поскольку это nagios, вы можете использовать все плагины nagios, которые вы использовали в прошлом. Отличный инструмент.
казнь
резервные копии управляются Backupninja. Я использую его просто как оболочку для моих сценариев bash - чтобы иметь единый журнал резервного копирования. каждый сценарий начинается с
function handle {
echo Error
error problem occured
}
set -e
trap handle ERR
поэтому я получаю ошибку в журналах, когда любая из команд [например, mysqldump или rsync] не работает.
все резервные копии попадают в rdiff репозиторий, так что у меня есть n дней приращений.
все резервные копии передаются с помощью rsync на центральный сервер хранения.
на сервере хранения все резервные копии проверяются ежедневно и после успешной проверки данных на локальном диске они копируются на внешний USB-накопитель.
проверка
backupninja.log на всех серверах контролируется nagios. Я проверяю, содержат ли они только сообщения DEBUG и INFO. все остальное вызывает предупреждение.
каждая резервная копия «касается» тестового файла, наличие и актуальность которого отслеживается на сервере центрального хранилища резервных копий с помощью nagios.
кроме того, более важные дампы sql проверяются на их размер [не только на свежесть] и полноту [например, в конце дампа mysql я ожидаю свежую метку времени в
- Дамп завершен 22.04.2010 23:21:02
все архивы rdiff проверяются ежедневно перед синхронизацией данных с USB-накопителем, а затем еще раз после их синхронизации. поэтому даже если ночная передача будет прервана, у меня будет единый репозиторий только на USB-диске. результат проверки записывается в файл, содержание и актуальность которого проверяется nagios.
USB-диски меняются еженедельно и на всякий случай хранятся в автономном режиме. это может быть излишним для больших объемов данных, но отлично работает для ~ 300 ГБ медленно меняющихся файлов / дампов.
тенденции
я использую простой обычай Мунин плагин для построения размера diff / data для каждого репозитория rdiff.
время, необходимое для выполнения, можно проверить в журналах backupninja, но пока я не беспокоюсь об этом.
Nagios для оповещения и Кактусы для построения графиков плюс некоторые сценарии оболочки или Perl сделают именно то, что вы хотите. Комбинируя их вместе, вы можете делать практически все, что угодно, в зависимости от количества усилий, которые вы готовы приложить.
Я рекомендую OpenNMS. Пакет имеет полностью открытый исходный код, активно поддерживается и регулярно улучшается. Для справки я нашел в их информации о конфигурации вики, чтобы контролировать Symantec Backup Exec.
Со своего сайта ..
OpenNMS - это первая в мире платформа управления сетью корпоративного уровня, разработанная в рамках модели с открытым исходным кодом. Он состоит из проекта с открытым исходным кодом, поддерживаемого сообществом, а также из организации коммерческих услуг, обучения и поддержки.
Раскрытие информации: у меня здесь нет коммерческого интереса, но владелец Группа OpenNMS, упомянутая выше "организация по коммерческим услугам, обучению и поддержке" - мой друг.
Это легко сделать с помощью Circonus (http://circonus.com/). Мы регулярно импортируем подобные метрики с помощью Resmon XML DTD.