Назад | Перейти на главную страницу

Устранение сетевых ошибок, возможно, проблем с DNS

Вчера у нас были проблемы с сервером (или, возможно, с сетью), которые переросли в реальные проблемы с подключением (через ssh), а также проблемы с DNS.

Во время этого ничего (кроме вышеперечисленного) не выглядело необычным: все серверы отвечали на пинг, никакая нагрузка на сервер не была (насколько мы могли судить) необычной. В файлах журнала ничего не отображается. Через пару часов он возродился, и я смог получить доступ ко всем нашим серверам. Просмотр файлов журналов, журналов активности sar и т.д. ничего не показал.

Наши серверы расположены рядом, и наши партнеры смотрели на коммутаторы и брандмауэры и не видели ничего необычного. Сетевой трафик вроде нормальный, все откликалось на пинги и трассировку. Однако: похоже, что никакие ssh-соединения не работают!

Это все, что у меня есть сейчас:

Серверы сначала казались "медленными", отвечая на соединения через ssh и ftp. Однако после подключения все, казалось, было хорошо. Все остальные приложения вроде работали нормально. Пинг ничего необычного не обнаружил.

Вчера в 19:05 перестали работать DNS-запросы, я это вижу в журнале приложений.

Я пытался получить доступ к нашим серверам через ssh пару часов и смог получить доступ только к 1 из 3 серверов. Время ожидания подключения истекло, и примерно через минуту я получил:

$ ssh myusername@local_ip_address

Connection closed by <remote ip>

Мы не используем ssh для доменного имени, поэтому DNS здесь не нужен, верно? Но, возможно, удаленный сервер выполняет какой-то удаленный DNS для проверки соединения?

Если это так, то странно, что у нас была такая же проблема с подключением к двум разным серверам с разными настройками DNS (см. Ниже).

Однако проверка связи с другими серверами прошла без проблем. Я связался с нашим координатором, который управляет всем оборудованием, серверами, коммутаторами и межсетевыми экранами. Они не видели ничего необычного, кроме того, что они не могли использовать ssh. Пинги, сетевые метрики и т. Д. Выглядели нормально.

Затем через час или около того я снова смог подключиться по ssh к обоим серверам, которые ранее не отвечали. Вход в них и проверка системной статистики, файлов журналов и т. Д. Вообще ничего не показывает!

Нет что?

Я здесь в слепую, куда мне смотреть дальше? Я хочу знать, что произошло, чтобы мы могли убедиться, что этого больше не повторится!

Если вы запросите дополнительную информацию, я предоставлю все, что смогу! Я сосредоточился на настройке DNS и т. Д. Ниже, потому что пока это моя единственная идея прямо сейчас ...

Настройка сервера

Вот как выглядит наша настройка DNS на 2 из 3 серверов:

$ more /etc/resolv.conf
nameserver intentionally_changed_server_ip_1
nameserver intentionally_changed_server_ip_2
options rotate

Эти DNS-серверы управляются не нами, а нашим локатором. Я спросил их, были ли у них проблемы с DNS вчера, но ответа пока не было. Обновлю, как только узнаю!

На третьем сервере DNS почему-то указывает на наш собственный контроллер домена Windows:

$ more /etc/resolv.conf 
nameserver intentionally_changed_server_local_ip_3

Глядя на этот сервер, он указывает на DNS Google:

Бег dig как рекомендовано в комментарии ниже, возвращает меняющееся количество внешних серверов имен:

$  dig @intentionally_changed_server_ip_1 +short NS ourdomain
ns3.our-co-locators-domain.
ns5.our-co-locators-domain.
ns4.our-co-locators-domain.

$  dig @intentionally_changed_server_ip_1 +short NS ourdomain
ns4.our-co-locators-domain.
ns5.our-co-locators-domain.
ns3.our-co-locators-domain.

То же самое, если вместо этого я нацелен на "намеренно_измененный_сервер_ip_2"!

Данные сервера

Все серверы представляют собой серверы HP DL 380 G7 под управлением RHEL-6:

$ more /etc/redhat-release
Red Hat Enterprise Linux Server release 6.8 (Santiago)