Доброе утро,
В настоящее время я ищу решение, которое позволит нашей организации отслеживать сбои в системе электронной почты (а затем отправлять уведомление ИТ-администраторам, возможно, по SMS для поддержки 24/7).
Наша конечная цель - определить, когда электронная почта (как комплексная услуга) работает некорректно. Это может быть отказ нашего сервера Exchange (2007), отказ брандмауэра или спам-фильтра или еще одна «неизвестная» точка отказа. Важнейшей частью решения будет надежное уведомление ИТ-персонала.
Мы понимаем, что получить полностью отказоустойчивое решение может быть сложно, но есть ли у кого-нибудь совет, который направит нас в правильном направлении?
Спасибо
Как предполагает Ig, Nagios может быть часть решения.
Из коробки он будет делать много вещей, таких как измерение ЦП, открытых портов, ответа системы на эхо-запросы. Но важно то, что это инструмент планирования и отчетности, в который легко добавлять новые программы, которые фактически измеряют системные метрики. Есть много других продуктов для подобных вещей, но Nagios - один из лучших бесплатных продуктов (лучше многих коммерческих предложений). И если вы посмотрите на коммерческие предложения, вы потратите недели, пробираясь сквозь все маркетинговые ходы и задействуя функциональные возможности, прежде чем узнаете, можно ли вообще интегрировать свои собственные показатели, не говоря уже о том, как это сделать. Конечно, и BMC Patrol (новая версия), и Oracle Grid Control могут поддерживать это, но для этого потребуется гораздо больше усилий.
Если вы хотите протестировать сквозную функциональность, все, что вам нужно сделать, это настроить запланированное задание для отправки электронной почты через систему (в Nagios или с помощью обычного планировщика), скажем, каждые 5 минут, а затем настроить проверка в Nagios для периодической проверки самой последней электронной почты, исходящей из системы - если нет новой электронной почты (или самое последнее письмо старше 6 минут), ваш скрипт должен возвращать статус ошибки.
Этот тип сценария тривиален для установки в системе Unix, но может быть более сложным (и намного более дорогим) для компьютеров с MSWindows - если у вас нет сильного отвращения к Unix, я бы рекомендовал запустить Linux или BSD на компьютере. запасной ПК для запуска Nagios и зондов, но Nagios доступен для MS Windows.
Похоже, ваш сценарий делает всю тяжелую работу? Не совсем, Nagios будет управлять эскалацией, может быть настроен для отправки предупреждений разным людям в зависимости от времени суток, запускать автоматические действия в случае предупреждения (например, перезагрузить сервер) и предоставлять много информации о Зачем служба может дать сбой (например, диск заполнен на почтовом сервере) и многое другое ... хм, использовать существующие навыки для интеграции стратегий решения проблем?
С.
Я бы поддержал предложение symcbean.
Настройте задание, которое периодически отправляет электронное письмо на какой-нибудь тестовый почтовый ящик (в идеале за пределами вашей организации, может быть, где-нибудь в учетной записи бесплатной почты), а затем пусть Nagios проверяет это.
Вы можете проверить, уходила ли почта на вашу сторону или даже пришла ли она (например, вытаскивая почту через POP3). Последний, очевидно, является более всеобъемлющим тестом, но рискует потерпеть неудачу, если freemailer не работает, поэтому вы, вероятно, захотите использовать две или три службы бесплатной почты.
Если тест не прошел, Nagios может предупредить вас различными способами. Вы можете отправить SMS-сообщение, купив аппаратное устройство, которое подключается к серверу Nagios и отправляет его напрямую через GSM, или через веб-сервис. Последнее, вероятно, проще и дешевле, но не удастся, если вся ваша сеть будет отключена.
Только не забудьте, что Nagios не рассылает оповещения по почте ;-).
Nagios или аналогичные инструменты