Я только что установил SCOM, и он отслеживает подмножество установленных нами серверов Windows.
Есть одно правило, которое генерирует предупреждения, которое доставляет мне небольшие проблемы: NTFS - Delayed Write Lost
Это вызвано VMware и нашим решением для резервного копирования. Все отслеживаемые машины - это виртуальные машины VMware, работающие на ESXi 5.5 или 6. Для них выполняется резервное копирование с помощью Commvault, который создает стабилизированный моментальный снимок и создает резервную копию моментального снимка. Пока создается снимок, Windows генерирует эти события, которые отслеживаются SCOM. Кажется, это известная проблема, и VMware ничего не делает для ее решения. Посмотреть здесь: Сайт VMware
Поскольку я ничего не могу сделать с генерируемым предупреждением, я бы вместо этого хотел бы подавить правило, пока делается снимок. К сожалению, переопределения в SCOM кажутся двоичными; правило либо включено, либо нет. Я не хочу отключать подобное правило, при любых других обстоятельствах неудачная отложенная запись может стать серьезной проблемой.
Глядя на журналы событий на сервере, кажется, что предупреждение никогда не появляется более 10-15 раз в течение нескольких секунд. Можно ли настроить SCOM так, чтобы оно не уведомляло об этом правиле, если оно не отображается более чем Икс раз больше Y количество времени? Если это не так, можно ли настроить его на подавление правила во время окна резервного копирования?
Буду признателен за любой совет :)
Я считаю, что использование «Режима обслуживания» - правильный выбор. Любой сервер в SCOM можно переключить в режим обслуживания на определенный период времени, и на это время он приостановит все рабочие процессы мониторинга на этом сервере. Вот ссылка, как управлять им в SCOM: https://technet.microsoft.com/en-us/library/hh212870.aspx
Если ваша резервная копия является частью автоматизированного рабочего процесса, вы можете захотеть перевести эти машины в режим обслуживания с помощью команды PS. Подробнее об этом командлете PS: https://technet.microsoft.com/en-us/library/hh918505(v=sc.30).aspx
Я надеюсь, что это помогает.
Спасибо, Роман.
Вы можете отключить исходное правило и создать новое правило или монитор.
Версия 1. Вместо того, чтобы нацеливаться на класс Windows, используйте цель класса Logical Disk. Пока выполняется резервное копирование, установите логические диски в режим обслуживания. Таким образом, останавливаются только рабочие процессы логических дисков. (Для этого можно использовать любой другой класс)
Когда есть много экземпляров, которые необходимо установить в режиме обслуживания одновременно, вы должны сгруппировать их и установить обслуживание для группы. По моему опыту, перебор экземпляров и установка для них режима обслуживания с помощью PowerShell очень медленная.
Версия 2: Используйте коррелированное событие правило или монитор. Например: Только тревога, когда то же событие больше не появляется в течение следующих 5 минут после возникновения первого события.