Назад | Перейти на главную страницу

Правило SCOM - NTFS - Отложенная запись потеряна

Я только что установил SCOM, и он отслеживает подмножество установленных нами серверов Windows.

Есть одно правило, которое генерирует предупреждения, которое доставляет мне небольшие проблемы: NTFS - Delayed Write Lost

Это вызвано VMware и нашим решением для резервного копирования. Все отслеживаемые машины - это виртуальные машины VMware, работающие на ESXi 5.5 или 6. Для них выполняется резервное копирование с помощью Commvault, который создает стабилизированный моментальный снимок и создает резервную копию моментального снимка. Пока создается снимок, Windows генерирует эти события, которые отслеживаются SCOM. Кажется, это известная проблема, и VMware ничего не делает для ее решения. Посмотреть здесь: Сайт VMware

Поскольку я ничего не могу сделать с генерируемым предупреждением, я бы вместо этого хотел бы подавить правило, пока делается снимок. К сожалению, переопределения в SCOM кажутся двоичными; правило либо включено, либо нет. Я не хочу отключать подобное правило, при любых других обстоятельствах неудачная отложенная запись может стать серьезной проблемой.

Глядя на журналы событий на сервере, кажется, что предупреждение никогда не появляется более 10-15 раз в течение нескольких секунд. Можно ли настроить SCOM так, чтобы оно не уведомляло об этом правиле, если оно не отображается более чем Икс раз больше Y количество времени? Если это не так, можно ли настроить его на подавление правила во время окна резервного копирования?

Буду признателен за любой совет :)

Я считаю, что использование «Режима обслуживания» - правильный выбор. Любой сервер в SCOM можно переключить в режим обслуживания на определенный период времени, и на это время он приостановит все рабочие процессы мониторинга на этом сервере. Вот ссылка, как управлять им в SCOM: https://technet.microsoft.com/en-us/library/hh212870.aspx

Если ваша резервная копия является частью автоматизированного рабочего процесса, вы можете захотеть перевести эти машины в режим обслуживания с помощью команды PS. Подробнее об этом командлете PS: https://technet.microsoft.com/en-us/library/hh918505(v=sc.30).aspx

Я надеюсь, что это помогает.

Спасибо, Роман.

Вы можете отключить исходное правило и создать новое правило или монитор.

Версия 1. Вместо того, чтобы нацеливаться на класс Windows, используйте цель класса Logical Disk. Пока выполняется резервное копирование, установите логические диски в режим обслуживания. Таким образом, останавливаются только рабочие процессы логических дисков. (Для этого можно использовать любой другой класс)

Когда есть много экземпляров, которые необходимо установить в режиме обслуживания одновременно, вы должны сгруппировать их и установить обслуживание для группы. По моему опыту, перебор экземпляров и установка для них режима обслуживания с помощью PowerShell очень медленная.

Версия 2: Используйте коррелированное событие правило или монитор. Например: Только тревога, когда то же событие больше не появляется в течение следующих 5 минут после возникновения первого события.