SQL Server 2012 работает на экземпляре отказоустойчивого кластера Windows 2012.
(** Кластер содержит только один узел. Да, я знаю, что это ужасно. Нет, это было не мое решение ....)
Проблема в том, что в кажущееся случайным время ночи (наш период наибольшей сетевой активности) SQL Server отключается.
Журналы ошибок SQL Server указывают на то, что кластер приказывает ему остановиться:
SQL Server is terminating in response to a 'stop' request from Service Control Manager. This is an informational message only. No user action is required.
Журнал кластера показывает, что это происходит потому, что он утверждает, что SQL Server не удалось:
Что мне действительно интересно узнать, так это ПОЧЕМУ кластер считает, что SQL Server вышел из строя. Просматривали различные журналы отказоустойчивой кластеризации в диспетчере событий и пока не нашли ничего, что указывает на это. Любое конкретное доказательство, которое я могу вернуть команде серверов и сказать «это из-за сети» или «это из-за кворума», или по любой другой причине, будет очень признательно.
ОБНОВИТЬ
Обнаружил, как просматривать "информационные" записи в журнале событий кластера. Не уверен, что это индикатор или нет, но много записей, упоминающих «Netbios: Slow Operation».
Я вижу запись «Конечная точка работает» за 10 секунд до первых записей, в которых обсуждается перевод узла в автономный режим.