Назад | Перейти на главную страницу

Лучший инструмент для мониторинга резервных копий и т. Д. И отслеживания статистики на основе этих данных

Я провел некоторое исследование nagios, opennms и zenoss, но не уверен, что нашел то, что ищу.

Сейчас для меня основной движущей силой является возможность отслеживать резервные копии. Сюда входят mysql, mssql и, возможно, резервные копии некоторых файловых систем.

У нас есть инструмент, который обертывает процесс резервного копирования для этих различных систем и собирает статистику. Итак, такие предметы, как:

Я хочу иметь возможность A) получать уведомления, если задания не выполняются в соответствии с расписанием B) иметь возможность устанавливать пороговые значения для статистики, которые будут запускать уведомления C) Я хочу иметь возможность отслеживать тенденции и строить графики статистики

Я планирую отправить эту информацию в приложение для мониторинга через HTTP POST. Или приложение мониторинга может также извлечь его из файла журнала.

Однако у нас будут другие процессы с другой «произвольной» (с точки зрения системы мониторинга) статикой, которые нужно будет отслеживать и отслеживать, поэтому гибкость очень важна.

Инструмент или инструменты также должны иметь возможность выполнять общий мониторинг и отслеживание тенденций сетевых интерфейсов, нагрузки на сервер и т. Д. Как только мы получим мониторинг резервного копирования, мы захотим включить и эти элементы.

Спасибо.

Следовать за:

Решил попробовать в указанном порядке:

Отправлю ответ, как только приму решение, может пройти некоторое время, пока это не произойдет.

это должно быть довольно легко настроить с помощью zabbix.

Установка пользовательских (и очень мощных) пороговых значений проста - вы можете написать любое выражение, которое вам нравится, поэтому возможно что-то вроде «уведомить меня, если более чем на 3 из этих 5 серверов не было успешной резервной копии». вы также можете использовать 6 различных уровней серьезности и эскалации для получения гибких уведомлений и предупреждений.

zabbix имеет объединенные возможности хранения и визуализации данных - все данные хранятся в базе данных, и для построения графика единой метрики вам не нужна никакая конфигурация - вы просто получаете график для этого «бесплатно». для длительного хранения и анализа тенденций вычисляются средние значения за один час.

Что касается загрузки ваших данных о резервных копиях в zabbix, существует несколько возможностей. вы можете читать его из файлов, вы можете запускать собственные команды, вы можете отправлять его с контролируемой машины с помощью утилиты командной строки zabbix_sender ... и может быть еще несколько возможных подходов.

расширение просто - любая пользовательская команда, возвращающая данные, может использоваться для сбора, хранения и визуализации этих данных.

конечно, возможен общий мониторинг операционных систем, приложений, устройств snmp и ipmi и так далее.

Вместо того, чтобы писать собственное решение для мониторинга, я настоятельно рекомендую вам использовать существующий инструмент, чтобы все основные функции мониторинга и оповещения уже были реализованы. Если вы выберете Nagios, вы получите бесплатный базовый мониторинг серверных и сетевых ресурсов, а следующие плагины должны предоставить вам большую часть остального, что вам нужно:

check_file_ages_in_dirs сообщит вам, существуют ли файлы резервных копий; вот Сообщение блога Я написал несколько основных примеров.

check_file может отслеживать размер и содержимое файла (с помощью регулярных выражений), поэтому вы можете выводить статистику резервного копирования в файл и отслеживать их.

Единственное, чего вы не получите от Nagios, так это построения графиков и трендов; Рекомендую посмотреть Мунин для этого, поскольку он прост в установке и, как и Nagios, имеет множество дополнительных плагинов.

nagios может отслеживать тенденции, но вам нужно вывести perfdata (http://nagios.sourceforge.net/docs/1_0/perfdata.html) в вашем плагине. Если вы используете pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start тогда все будет нарисовано для вас.

Я обнаружил, что с помощью opsview http://www.opsview.org/ намного проще, чем настраивать nagios и pnp4nagios. Особенно, если вы единственный администратор, разбирающийся в Linux. Opsview - это nagios с отличным веб-интерфейсом, который позволяет выполнять практически все действия из веб-браузера. Поскольку это nagios, вы можете использовать все плагины nagios, которые вы использовали в прошлом. Отличный инструмент.

казнь

резервные копии управляются Backupninja. Я использую его просто как оболочку для моих сценариев bash - чтобы иметь единый журнал резервного копирования. каждый сценарий начинается с

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

поэтому я получаю ошибку в журналах, когда любая из команд [например, mysqldump или rsync] не работает.

все резервные копии попадают в rdiff репозиторий, так что у меня есть n дней приращений.

все резервные копии передаются с помощью rsync на центральный сервер хранения.

на сервере хранения все резервные копии проверяются ежедневно и после успешной проверки данных на локальном диске они копируются на внешний USB-накопитель.

проверка

backupninja.log на всех серверах контролируется nagios. Я проверяю, содержат ли они только сообщения DEBUG и INFO. все остальное вызывает предупреждение.

каждая резервная копия «касается» тестового файла, наличие и актуальность которого отслеживается на сервере центрального хранилища резервных копий с помощью nagios.

кроме того, более важные дампы sql проверяются на их размер [не только на свежесть] и полноту [например, в конце дампа mysql я ожидаю свежую метку времени в

- Дамп завершен 22.04.2010 23:21:02

все архивы rdiff проверяются ежедневно перед синхронизацией данных с USB-накопителем, а затем еще раз после их синхронизации. поэтому даже если ночная передача будет прервана, у меня будет единый репозиторий только на USB-диске. результат проверки записывается в файл, содержание и актуальность которого проверяется nagios.

USB-диски меняются еженедельно и на всякий случай хранятся в автономном режиме. это может быть излишним для больших объемов данных, но отлично работает для ~ 300 ГБ медленно меняющихся файлов / дампов.

тенденции

я использую простой обычай Мунин плагин для построения размера diff / data для каждого репозитория rdiff.

время, необходимое для выполнения, можно проверить в журналах backupninja, но пока я не беспокоюсь об этом.

Nagios для оповещения и Кактусы для построения графиков плюс некоторые сценарии оболочки или Perl сделают именно то, что вы хотите. Комбинируя их вместе, вы можете делать практически все, что угодно, в зависимости от количества усилий, которые вы готовы приложить.

Я рекомендую OpenNMS. Пакет имеет полностью открытый исходный код, активно поддерживается и регулярно улучшается. Для справки я нашел в их информации о конфигурации вики, чтобы контролировать Symantec Backup Exec.

Со своего сайта ..

OpenNMS - это первая в мире платформа управления сетью корпоративного уровня, разработанная в рамках модели с открытым исходным кодом. Он состоит из проекта с открытым исходным кодом, поддерживаемого сообществом, а также из организации коммерческих услуг, обучения и поддержки.

Раскрытие информации: у меня здесь нет коммерческого интереса, но владелец Группа OpenNMS, упомянутая выше "организация по коммерческим услугам, обучению и поддержке" - мой друг.

Это легко сделать с помощью Circonus (http://circonus.com/). Мы регулярно импортируем подобные метрики с помощью Resmon XML DTD.