Я наблюдаю поистине странную проблему, которую не могу выделить.
Сценарий: стек серверов Dell Poweredge, работающих в стабильном кластере. Попытка применить некоторые обновления Windows, серверы потеряли доверие к Интернету и домену. Не удалось восстановить доверие домена. Удалил обновление, все заработало. Переустановил, все ок. То же самое на другом сервере, поэтому я принял решение восстановить базовый уровень. Серверы были перестроены с нуля: была применена последняя версия прошивки (BIOS, сетевые карты, RAID и т.д.) и последний уровень драйверов. Стандартная сборка 2012R2 Datacenter, подключенная к сети, а затем в обновления. На разных этапах сборки применяются обновления, которые вырубают интернет-соединение. DNS полностью разрешается, вы можете ping, traceroute и т. Д., Но браузер не работает. Кроме того, если вы попытаетесь присоединиться к домену на этом этапе, это будет «Сетевой путь не найден». Многократные попытки восстановить связь не удаются.
В некоторых случаях сервер достигает стадии, когда он готов присоединиться к домену, после чего появляется другой набор обновлений после присоединения к домену, некоторые из которых затем снова прерывают подключение к Интернету. На этом этапе также потеряны доверительные отношения с доменом.
В большинстве случаев простой процесс удаления самого последнего обновления и перезагрузки восстанавливает соединение. Затем вы можете переустановить то же самое обновление, и сервер продолжит себя вести. Если на этом этапе он находится в домене, мне нужно сбросить учетную запись компьютера, чтобы восстановить доверие. Затем это произойдет снова на более позднем этапе сборки с другим обновлением.
Я исключил, что это связано с одним обновлением, поскольку это происходит на разных этапах с применением разных накопительных пакетов. Пробовали несколько версий драйверов / прошивок для сервера. В сети нет блокировки брандмауэра. Никакого программного обеспечения безопасности. Нет брандмауэра Windows. Я даже подготовил сервер обратно и перестроил его объединенную инфраструктуру сетевого адаптера, и Интернет по-прежнему не работал, пока я не откатил обновление, после чего оно заработало. Затем снова накатил его, и проблема исчезла.
В большинстве случаев я могу достичь точки, когда сервер будет стабильным и будет использоваться в производственной среде, если я больше не буду применять обновления.
У кого-нибудь есть опыт чего-либо отдаленно похожего на это?
Я думал, что опубликую обновленную информацию об этой, теперь решенной проблеме.
Как выяснилось, обновления Windows были полным отвлекающим маневром. Так уж вышло, что во время возникновения проблемы я запускал обновления, но на самом деле кажется, что просто процесс перезагрузки убил стек TCPIP. Мне удалось воспроизвести проблему несколько раз простой перезагрузкой, а затем перезагрузка с помощью Netsh Winsock Reset и перезагрузка вернули ее к жизни. Как ни странно, часто удаление недавнего обновления и перезагрузка имели бы тот же эффект, но не всегда. Что за этим стояло? Вроде бы карты NIC. Хотя последняя версия прошивки и драйверов, одна из настроек RSS (масштабирование на стороне приема) вызывала проблему. Это позволяет распределять трафик NIC по нескольким процессорам, а не ограничиваться одним. Типичная настройка производительности, которая вызывает больше проблем, чем решает. Я отключил его и привет, все снова стабильно. Я могу исправлять и перезагружаться, сколько душе угодно, не теряя стек TCPIP :)
Очень непонятная проблема, но, возможно, кто-то другой найдет нечто подобное, и отключение RSS может помочь.