Я программист, а не системный администратор, но поскольку у нас было много проблем с нашими серверами, я подумал, что буду действовать на опережение и помогу нашим перегруженным (и обучающимся) системным администраторам.
У нас около 20-25 серверов Windows (2003 и 2008). Они варьируются от SQL-серверов до веб-серверов, выполняющих пакетную обработку, размещающих внутренние приложения и т. Д. Мы действительно используем WhatsUp в качестве программного обеспечения для мониторинга памяти, активности процессора, статуса веб-сайта и т. Д.
Но на данный момент кажется, что мы вообще не отслеживаем журнал событий. Я видел, что в этом журнале событий появляется много ошибок и предупреждений, и хотя я не понимаю их влияния, некоторые из них кажутся потенциально плохими.
Что является стандартной практикой в этом сценарии? Системные администраторы обычно просматривают журнал событий на каждом сервере вручную ежемесячно / еженедельно / ежедневно в течение определенного периода обслуживания? У вас есть какое-то программное обеспечение-агрегатор, чтобы вы все серверы вручную проверяли его? Или какое-то программное обеспечение, которое подает сигнал тревоги или отправляет электронное письмо, как только ошибка / предупреждение появляется в журнале событий?
Я видел, что у WhatsUp есть плагин (который стоит денег), который может это делать, и я также видел, например, предложенный здесь OSSEC. Должен ли я предложить это, если да, насколько это важно?
Вы можете использовать Splunk для сбора и индексации событий Windows.
Администратор, который не отслеживает журналы событий (или аналогичные системы, отличные от Windows), не очень хороший администратор. Однако существует множество различных способов и средств мониторинга журналов, и, поскольку они в лучшем случае загадочны, мониторинг лучше всего проводить программно. Это не устраняет необходимость периодических случайных проверок вручную, но, безусловно, делает большую сложную работу управляемой.
Ключом к этому является программа (или набор программ), которая сокращает журналы и извлекает «интересные» биты. например Зачем нам обычно заботиться о том, чтобы Бетти отправила 50-страничный документ на принтер Accounts HP, хотя журналы полны такого материала. Подавляющее большинство записей журнала событий не имеют никакого отношения к повседневной работе, но могут быть очень полезны при попытке изолировать или отладить проблемы.
Используйте фильтр, чтобы извлечь ошибки и предупреждения, а затем, возможно, даже отбросить те, которые являются нормальными и ожидаемыми в данной системе. Как только вы отфильтруете это правильно, у вас должно получиться достаточно небольшое количество событий, требующих дальнейшего расследования. По крайней мере, можно было бы надеяться, что это результат.
Мы используем nagios в качестве решения для мониторинга, а с помощью nsclient ++ мы можем отслеживать журналы Windows.
Обычно мы используем эту политику в отношении журналов Windows:
В описании nagios мы показываем сумму всех ошибок и краткое описание.
Если ошибка кажется важной (сбой диска, сбой ntfs, сбой установки и т. Д.), То мы регистрируемся на сервере и проверяем.
Обычный сервер может показывать некоторые ошибки, если некоторые принтеры определены и совместно используются, но обычно исправный сервер не имеет большого количества ошибок в журналах
Zenoss выполняет мониторинг журнала событий Windows в дополнение к WMI, SNMP и ловушкам SNMP, системному журналу, SSH и множеству протоколов, добавленных сообществом. Плюс это открытый исходный код.