Я постараюсь быть максимально кратким, но я еще не совсем разбираюсь в том, как была настроена наша инфраструктура. Мы используем машины CentOS 7 с FreeIPA и последней версией sssd (1.16.4-37), и из сотен машин есть одна, на которой sssd регулярно (то есть несколько раз в месяц) дает сбой в течение ночи, и нам нужно перезапустить это вручную. На данный момент я не смог выяснить закономерность, поскольку она может легко работать в течение нескольких недель, а затем дважды вылетать в течение двух дней.
Вот конфигурация sssd, которую мы развернули на каждом хосте, включая тот, на котором происходят сбои:
[domain/our_local_domain.local]
cache_credentials = True
krb5_store_password_if_offline = True
ipa_domain = our_local_domain.local
id_provider = ipa
auth_provider = ipa
access_provider = ipa
ldap_tls_cacert = /etc/ipa/ca.crt
ipa_hostname = crashinghost.ourdomain.test
chpass_provider = ipa
dyndns_update = True
ipa_server = _srv_, our_ipa_server.ourdomain.test
dyndns_iface = eth0
dns_discovery_domain = our_local_domain.local
[sssd]
services = nss, sudo, pam, ssh
domains = our_local_domain.local
[nss]
homedir_substring = /home
[pam]
[sudo]
[autofs]
[ssh]
[pac]
[ifp]
[secrets]
[session_recording]
Исходя из моих первоначальных выводов, казалось, что причиной сбоя sssd является его компонент ssh, поэтому я начал регистрировать его и обнаружил, что это происходит в sssd_ssh.log каждый раз, когда происходит сбой:
Jul 15 03:03:37 crashinghost sssd: Exiting the SSSD. Could not restart critical service [ssh].
Jul 15 03:03:37 crashinghost sssd[nss]: Shutting down
Jul 15 03:03:38 crashinghost sssd[pac]: Shutting down
Jul 15 03:03:38 crashinghost sssd[pam]: Shutting down
Jul 15 03:03:38 crashinghost sssd[sudo]: Shutting down
Jul 15 03:03:48 crashinghost systemd: sssd.service: main process exited, code=exited, status=1/FAILURE
Jul 15 03:03:48 crashinghost systemd: Unit sssd.service entered failed state.
Jul 15 03:03:48 crashinghost systemd: sssd.service failed.
Затем я нашел это в sssd.log:
(Tue Jul 14 01:05:39 2020) [sssd[ssh]] [sbus_reconnect] (0x0080): Making reconnection attempt 1 to [unix:path=/var/lib/sss/pipes/private/sbus-dp_our_local_domain.local]
(Tue Jul 14 01:05:39 2020) [sssd[ssh]] [sbus_reconnect] (0x0020): Failed to open connection: name=org.freedesktop.DBus.Error.FileNotFound, message=Failed to connect to socket /var/lib/sss/pipes/private/sbus-dp_our_local_domain.local: No such file or directory
(Tue Jul 14 01:05:42 2020) [sssd[ssh]] [sbus_reconnect] (0x0080): Making reconnection attempt 2 to [unix:path=/var/lib/sss/pipes/private/sbus-dp_our_local_domain.local]
(Tue Jul 14 01:05:42 2020) [sssd[ssh]] [sbus_reconnect] (0x0020): Failed to open connection: name=org.freedesktop.DBus.Error.FileNotFound, message=Failed to connect to socket /var/lib/sss/pipes/private/sbus-dp_our_local_domain.local: No such file or directory
(Tue Jul 14 01:05:52 2020) [sssd[ssh]] [sbus_reconnect] (0x0080): Making reconnection attempt 3 to [unix:path=/var/lib/sss/pipes/private/sbus-dp_our_local_domain.local]
(Tue Jul 14 01:05:52 2020) [sssd[ssh]] [sbus_reconnect] (0x0020): Failed to open connection: name=org.freedesktop.DBus.Error.FileNotFound, message=Failed to connect to socket /var/lib/sss/pipes/private/sbus-dp_our_local_domain.local: No such file or directory
(Tue Jul 14 01:05:52 2020) [sssd[ssh]] [ssh_dp_reconnect_init] (0x0010): Could not reconnect to our_local_domain.local provider.
Короче говоря, символическая ссылка на сокет dbus sbus-dp_our_local_domain.local, кажется, время от времени ломается, и, насколько я могу судить, именно это вызывает сбой sssd. Я искал это сообщение об ошибке, но все, что я нашел, это в основном закрытые отчеты об ошибках или отчеты, которые, похоже, не связаны с этой проблемой.
Кто-нибудь знает, почему это могло произойти?
(Я обдумывал идею создания отчета об ошибке на официальном github, но я не уверен, что это действительно ошибка, а не просто какая-то неправильная конфигурация).
Спасибо, SilentSib