Наша текущая установка включает:
восемь (8) узлов Windows 2012 R2 в одном отказоустойчивом кластере, без общего хранилища, файловый ресурс-свидетель (на DC)
MS SQL 2016 AlwaysOn с несколькими группами AG
политики по умолчанию «Если ресурс не работает»
Отчет о проверке кластера показывает несколько незначительных предупреждений (разница в обновлениях и т. Д.), Но в целом все в порядке.
Недавно из-за примерно получасового простоя DC и, как следствие, недоступности File Share Witness, произошел сбой одного из AG. Это не совсем то, что мы ожидали, поскольку наша идея заключалась в том, что кворум всех 8 узлов все еще сохранялся, поэтому отказов не ожидалось.
Прочитав, казалось бы, всю доступную документацию по кворуму / FSW / и т. Д., У меня до сих пор нет четкого ответа или понимания, почему произошло аварийное переключение.
Журналы событий FC содержат, среди прочего, следующую неоднозначность:
FailoverClustering Event ID:1069 Resource Control Manager
Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed.
Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it. Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet.
На узле, который переключен на вторичный (NODE5), журнал системных событий содержит:
16.03.2017 12:39:47 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.
16.03.2017 12:39:47 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.
16.03.2017 12:39:48 The Cluster service failed to bring clustered role 'Cluster Group' completely online or offline. One or more resources may be in a failed state. This may impact the availability of the clustered role.
16.03.2017 12:39:48 Cluster resource 'File Share Witness' of type 'File Share Witness' in clustered role 'Cluster Group' failed due to an attempt to block a required state change in that cluster resource.
16.03.2017 12:39:48 File share witness resource 'File Share Witness' failed to arbitrate for the file share '\\DC\CLUSTER'. Please ensure that file share '\\DC\CLUSTER' exists and is accessible by the cluster.
И журнал событий отказоустойчивого кластера:
Cluster resource 'File Share Witness' in clustered role 'Cluster Group' has transitioned from state Terminating to state Failed.
<...>
The Cluster service is attempting to fail over the clustered role 'Cluster Group' from node 'NODE5' to node 'NODE6'.
<...>
Clustered role 'db5' is moving to cluster node 'NODE6'.
На мой взгляд, это в основном означает, что аварийное переключение было вызвано отключением File Share Witness. Но почему?
И нам интересно, есть ли способы исправить это поведение. Любые разъяснения или советы приветствуются, спасибо!
На мой взгляд, это в основном означает, что аварийное переключение было вызвано отключением File Share Witness. Но почему?
Это не значит. Просматривая опубликованные журналы, я вижу, что основная группа кластера не смогла подключиться к другому узлу (в надежде, что это исправит проблему подключения со свидетелем), однако в отношении SQL Server ничего нет. Вам нужно будет найти, где в журналах SQL Server произошел сбой, и отследить его, чтобы понять, почему кластер решил инициировать автоматический сбой.
Тот факт, что произошел автоматический сбой, означает, что у кластера есть кворум. Если бы этого не произошло, не произошло бы автоматического отказа.
И нам интересно, есть ли способы исправить это поведение. Любые разъяснения или советы приветствуются, спасибо!
Нечего исправлять, потому что это не то, что происходит. Посмотрите в журнал, чтобы увидеть, в чем причина автоматического сбоя, именно поэтому он не удался, а не потому, что не смог проверить работоспособность FSW.