Вчера у нас были проблемы с сервером (или, возможно, с сетью), которые переросли в реальные проблемы с подключением (через ssh), а также проблемы с DNS.
Во время этого ничего (кроме вышеперечисленного) не выглядело необычным: все серверы отвечали на пинг, никакая нагрузка на сервер не была (насколько мы могли судить) необычной. В файлах журнала ничего не отображается. Через пару часов он возродился, и я смог получить доступ ко всем нашим серверам. Просмотр файлов журналов, журналов активности sar и т.д. ничего не показал.
Наши серверы расположены рядом, и наши партнеры смотрели на коммутаторы и брандмауэры и не видели ничего необычного. Сетевой трафик вроде нормальный, все откликалось на пинги и трассировку. Однако: похоже, что никакие ssh-соединения не работают!
Это все, что у меня есть сейчас:
Серверы сначала казались "медленными", отвечая на соединения через ssh и ftp. Однако после подключения все, казалось, было хорошо. Все остальные приложения вроде работали нормально. Пинг ничего необычного не обнаружил.
Вчера в 19:05 перестали работать DNS-запросы, я это вижу в журнале приложений.
Я пытался получить доступ к нашим серверам через ssh пару часов и смог получить доступ только к 1 из 3 серверов. Время ожидания подключения истекло, и примерно через минуту я получил:
$ ssh myusername@local_ip_address
Connection closed by <remote ip>
Мы не используем ssh для доменного имени, поэтому DNS здесь не нужен, верно? Но, возможно, удаленный сервер выполняет какой-то удаленный DNS для проверки соединения?
Если это так, то странно, что у нас была такая же проблема с подключением к двум разным серверам с разными настройками DNS (см. Ниже).
Однако проверка связи с другими серверами прошла без проблем. Я связался с нашим координатором, который управляет всем оборудованием, серверами, коммутаторами и межсетевыми экранами. Они не видели ничего необычного, кроме того, что они не могли использовать ssh. Пинги, сетевые метрики и т. Д. Выглядели нормально.
Затем через час или около того я снова смог подключиться по ssh к обоим серверам, которые ранее не отвечали. Вход в них и проверка системной статистики, файлов журналов и т. Д. Вообще ничего не показывает!
Нет что?
Я здесь в слепую, куда мне смотреть дальше? Я хочу знать, что произошло, чтобы мы могли убедиться, что этого больше не повторится!
Если вы запросите дополнительную информацию, я предоставлю все, что смогу! Я сосредоточился на настройке DNS и т. Д. Ниже, потому что пока это моя единственная идея прямо сейчас ...
Настройка сервера
Вот как выглядит наша настройка DNS на 2 из 3 серверов:
$ more /etc/resolv.conf
nameserver intentionally_changed_server_ip_1
nameserver intentionally_changed_server_ip_2
options rotate
Эти DNS-серверы управляются не нами, а нашим локатором. Я спросил их, были ли у них проблемы с DNS вчера, но ответа пока не было. Обновлю, как только узнаю!
На третьем сервере DNS почему-то указывает на наш собственный контроллер домена Windows:
$ more /etc/resolv.conf
nameserver intentionally_changed_server_local_ip_3
Глядя на этот сервер, он указывает на DNS Google:
Бег dig
как рекомендовано в комментарии ниже, возвращает меняющееся количество внешних серверов имен:
$ dig @intentionally_changed_server_ip_1 +short NS ourdomain
ns3.our-co-locators-domain.
ns5.our-co-locators-domain.
ns4.our-co-locators-domain.
$ dig @intentionally_changed_server_ip_1 +short NS ourdomain
ns4.our-co-locators-domain.
ns5.our-co-locators-domain.
ns3.our-co-locators-domain.
То же самое, если вместо этого я нацелен на "намеренно_измененный_сервер_ip_2"!
Данные сервера
Все серверы представляют собой серверы HP DL 380 G7 под управлением RHEL-6:
$ more /etc/redhat-release
Red Hat Enterprise Linux Server release 6.8 (Santiago)