У нас есть пара десятков кластеров Win2008 и 2008R2 Enterprise, которые используются для SQL Server 2008 и 2008 R2 Enterprise / Datacenter. В прошлом у нас было много проблем со случайным переключением на другой ресурс и ошибками «Сеть разделена» на нескольких серверах на другом конце земного шара. Это было в основном решено обновлением драйверов сетевой карты и удалением Forefront Endpoint Protection (не уверен, как это повлияло на все, но помогло).
Перенесемся на шесть месяцев в ноябрь, и мы получаем постоянные предупреждения от SCOM и в журнале событий о том, что кластеры (в частности, два) выходят из строя с ошибками «Сеть разделена» несколько раз в неделю, но на самом деле сбоев не произошло. SQL Server все еще работает, никаких перебоев в обслуживании на веб-интерфейсах не наблюдается. Похоже, что ошибки происходят из «пассивного» узла и реплицируются по сети (мы получаем первые предупреждения от пассивного, затем активного, затем веб-интерфейса), но все узлы / сетевые адаптеры / диски / приложения / IP-адреса / веб-сайты остаются функциональными. Мы не можем найти причину, по которой эти ошибки постоянно появляются, когда кажется, что с кластером, сетью или чем-то еще все в порядке. Любые идеи о причине или возможном направлении, которое мы могли бы исследовать, были бы замечательными.
Когда вы получаете сообщение об ошибке сети, это означает, что сервер, на котором в настоящее время работают ваши кластерные приложения, каким-то образом изолирован от других узлов. Вполне возможно (и вероятно), что ваши сервисы продолжат работу, если нет других сбоев. Предупреждение сообщает вам, что, если требуется переключение на другой ресурс, скорее всего, произойдет сбой (обычно из-за того, что узел не имеет пути для передачи дисков / CSV).
Обязательно внимательно проверьте топологию сети и настройки сети кластера между рассматриваемыми серверами. У нас был неприятный опыт с этим, когда отказоустойчивый кластер использовал многопутевые сетевые адаптеры для межузловой связи, которые отличались от тех, которые использовал сервер SQL (т. Е. Отдельные VLAN). Поскольку как основное, так и резервное подключения кластера проходили таким образом, что кворум мог быть потерян, если бы только один коммутатор вышел из строя, сервер SQL все равно будет отображаться как подключенный, но кластер будет разделен на разделы, что означает, что если сервер (или switch) в случае отказа, это сильно повлияет на работу кластера.