Долгое время скрывался, но сегодня я столкнулся со странной проблемой, которая будет вызывать у меня ошибки до разрешения :-)
Это кажется представляться как проблема одностороннего пинга от одного сервера к отказоустойчивому кластеру.
Все машины работают под управлением Windows Server 2008 R2 с отключенным IPV6. Служба брандмауэра Windows отключена.
Лежит в земле:
Сервер отчетов - виртуальная машина VMWare с использованием сетевой карты E1000. Ничего особенного - IP, подсеть, шлюз и таблица маршрутизации кажутся нормальными.
Активный / пассивный отказоустойчивый кластер SQL 2008R2 - каждый имеет 7 настроенных сетевых адаптеров - 3 iSCSI, а остальные 4 привязаны к 2 IP-адресам с помощью BACS. Одна группа сетевых адаптеров используется для локального трафика, а другая - как часть отказоустойчивого кластера. В отказоустойчивом кластере есть VIP.
Проблема:
На прошлой неделе все работало нормально. Все машины находятся в одной подсети. Сегодня серверу отчетов не удалось проверить связь с виртуальным IP-адресом отказоустойчивого кластера. Он может без проблем пинговать оба узла, используя оба IP-адреса, не относящиеся к хранилищу.
Отказоустойчивый кластер SQL может без проблем проверить связь с сервером отчетов.
Я могу проверить связь с VIP-кодом SQL с любой другой машины, мысленно подтверждая это.
Пластырь
Я попытался перезагрузить сервер отчетов в случае, если TCP / IP работал неправильно, но безрезультатно. В итоге сработало изменение IP-адреса сервера отчетов - насколько мне известно, на коммутаторе (Catalyst 3750) нет правил хоста.
Что могло вызвать это? Я бы сказал, что таблица ARP была очищена после перезагрузки сервера отчетов, и IP-адрес не должен был устареть в кластере БД ... ищу кого-то с большим количеством сетевых ноу-хау, чем я :-)
Facepalm.
Я знаю, чем это вызвано, хотя мне может потребоваться помощь в объяснении. При устранении неполадок сегодня вечером я развернул еще один сервер и заставил его предположить IP-адрес сервера отчетов - этот новый сервер под управлением Windows Server 2008 R2 НЕ мог пинговать VIP.
Что ж, странно. И снова он мог пинговать любой из узлов по имени. Я посмотрел на таблицы arp, и это показалось мне разумным - я прыгнул на активный узел БД, чтобы проверить MAC-адрес, и заметил, что флажок для IPv6 установлен. Я снял отметку с него, и проблема сразу была решена.
Вопрос становится - почему? Я пропустил IPv6 в конфигурации кластера, это точно ... но этот кластер находится в эксплуатации более 3 месяцев и до сегодняшнего дня не было никаких явных проблем. Этот узел был активным более 3 недель.
Есть ли у кого-нибудь опыт или объяснение того, как что-то хорошее стало таким плохим? :-)