Назад | Перейти на главную страницу

Сервер Red Hat перестает отвечать после выключения основного контроллера домена

У нас есть несколько серверов (серверы приложений, веб-серверы и ftp-серверы), на которых работает Red Hat 5, и все они являются виртуальными. У нас также есть аналогичная установка на базе Windows. Вчера нашей группе по инфраструктуре потребовалось выключить основной контроллер домена, чтобы они могли переместить физический сервер в новую стойку. Они предполагали, что как только основной контроллер домена выйдет из строя, вторичный контроллер домена сработает. Как только основной контроллер домена выключился, все серверы приложений на базе Linux замедлились до обхода, до такой степени, что простая попытка входа через ssh заняла примерно 3 минуты.

Прежде чем мы смогли закончить устранение проблемы, команда разработчиков инфраструктуры смогла вернуть основной контроллер домена в оперативный режим.

Во время простоя основного контроллера домена все серверы на базе Windows работали нормально.

Наша первая мысль заключалась в том, что на серверах Linux нет вторичного контроллера домена, указанного как DNS-сервер, но это не так. Серверы Red Hat не связаны ни с какими функциями AD, кроме использования их в качестве DNS-сервера.

Есть мысли о том, что еще можно проверить? Мы не совсем системные администраторы Linux, поэтому я не уверен, что нам не хватает чего-то очень простого.

Попробуйте отключить «GSSAPIAuthentication» в файле / etc / ssh / sshd_config. У меня была аналогичная проблема, которая решалась таким образом. Некоторые из функций SSO GSSAPI, я думаю, попробуйте выполнить обратный поиск, который, конечно же, потерпит неудачу, если DNS-серверы отключены.

Используют ли серверы RHEL DNS в качестве преобразователей DNS или они используют его для подключения к другим службам? Вы проверяли журналы (например, / var / log / messages) на этих серверах, что происходило?

Мне кажется, что некоторые службы на серверах очень сильно зависят от домена, и отсутствие разрешения этих доменов привело к некоторым энергичным попыткам снова подключиться к этим доменам.

Вы могли бы проверить это, временно приостановив домены, которые используют серверы RHEL.

Зависит от того, что вы используете для аутентификации. Похоже, механизмы восстановления после сбоя для всего, что вы используете, либо занимали слишком много времени, либо работали слишком медленно. Если вы использовали LDAP для аутентификации и в ваших конфигурациях был указан один IP-адрес для проверки, то да, то, что вы видите, полностью подходит для этого случая. Если вы используете Winbind, он должен быть достаточно умен, чтобы переключиться на другой контроллер домена, но до принятия этого решения может потребоваться некоторое время.

Я считаю, что проблема «только один сервер LDAP может быть указана в конфигурации LDAP-auth» существует уже некоторое время. Один из способов решения этой проблемы - сделать запись DNS, на которую он указывает, циклической записью DNS между несколькими контроллерами домена. Другая возможность, если у вас есть для этого инфраструктура, - разместить адрес на балансировщике нагрузки; мы сделали это на моей старой работе, и это сработало довольно хорошо.