С помощью journalctl -u docker
я отметил
May 30 10:01:43 xxx systemd[1]: Stopping Docker Application Container Engine...
...
docker specific error log in between
...
May 30 10:01:51 xxx systemd[1]: Stopped Docker Application Container Engine...
Я видел /var/log/auth.log и не было никаких попыток докер вход на всю неделю.
Не видел попыток увольнения в корень история, а также наши общие пользователь
systemd запись:
[Unit]
Description=Docker Application Container Engine
Documentation=https://docs.docker.com
BindsTo=containerd.service
After=network-online.target firewalld.service containerd.service
Wants=network-online.target
Requires=docker.socket
[Service]
Type=notify
# the default is not to use systemd for cgroups because the delegate issues still
# exists and systemd currently does not support the cgroup feature set required
# for containers run by docker
ExecStart=/usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
ExecReload=/bin/kill -s HUP $MAINPID
TimeoutSec=0
RestartSec=2
Restart=always
# Note that StartLimit* options were moved from "Service" to "Unit" in systemd 229.
# Both the old, and new location are accepted by systemd 229 and up, so using the old location
# to make them work for either version of systemd.
StartLimitBurst=3
# Note that StartLimitInterval was renamed to StartLimitIntervalSec in systemd 230.
# Both the old, and new name are accepted by systemd 230 and up, so using the old name to make
# this option work for either version of systemd.
StartLimitInterval=60s
# Having non-zero Limit*s causes performance problems due to accounting overhead
# in the kernel. We recommend using cgroups to do container-local accounting.
LimitNOFILE=infinity
LimitNPROC=infinity
LimitCORE=infinity
# Comment TasksMax if your systemd version does not support it.
# Only systemd 226 and above support this option.
TasksMax=infinity
# set delegate yes so that systemd does not reset the cgroups of docker containers
Delegate=yes
# kill only the docker process, not all processes in the cgroup
KillMode=process
[Install]
WantedBy=multi-user.target
Я даже не знаю, почему не перезапускается. Похоже, кто-то отключил обслуживание вручную.
В моем понимании. Systemd следует хотя бы попытаться перезапустить службу, если она была остановлена из-за проблемы. Это заставляет меня думать, что это было по чьему-то требованию.
Как в этом разобраться?
Докер версии 19.03.8, сборка afacb8b7f0. Время работы 28 дней.
Недавно была проблема с утечкой памяти, жрет практически все. Но в логах про память ничего не увидел.
Убийца UPD OOM в /var/log/kern.log (спасибо @Abhijith):
May 30 10:01:42 compute03 kernel: [2263822.755824] [ pid ] uid tgid
total_vm rss pgtables_bytes swapents oom_score_adj name
May 30 10:01:42 compute03 kernel: [2263822.755829] [ 404] 0 404 71910 1 540672 3377 0 systemd-journal
May 30 10:01:42 compute03 kernel: [2263822.755830] [ 414] 0 414 10905 0 122880 372 -1000 systemd-udevd
May 30 10:01:42 compute03 kernel: [2263822.755831] [ 417] 0 417 24427 0 94208 55 0 lvmetad
May 30 10:01:42 compute03 kernel: [2263822.755833] [ 606] 62583 606 35484 0 184320 187 0 systemd-timesyn
May 30 10:01:42 compute03 kernel: [2263822.755834] [ 655] 100 655 18265 0 167936 385 0 systemd-network
May 30 10:01:42 compute03 kernel: [2263822.755835] [ 678] 101 678 17693 0 184320 200 0 systemd-resolve
May 30 10:01:42 compute03 kernel: [2263822.755836] [ 890] 0 890 27604 20 118784 64 0 irqbalance
May 30 10:01:42 compute03 kernel: [2263822.755837] [ 898] 0 898 17670 0 184320 218 0 systemd-logind
May 30 10:01:42 compute03 kernel: [2263822.755838] [ 899] 0 899 169538 0 147456 219 0 lxcfs
May 30 10:01:42 compute03 kernel: [2263822.755839] [ 901] 103 901 12544 0 143360 199 -900 dbus-daemon
May 30 10:01:42 compute03 kernel: [2263822.755840] [ 905] 0 905 7507 0 102400 72 0 cron
May 30 10:01:42 compute03 kernel: [2263822.755841] [ 907] 0 907 7083 0 106496 58 0 atd
May 30 10:01:42 compute03 kernel: [2263822.755842] [ 908] 0 908 71588 0 192512 260 0 accounts-daemon
May 30 10:01:42 compute03 kernel: [2263822.755843] [ 909] 102 909 65758 0 172032 461 0 rsyslogd
May 30 10:01:42 compute03 kernel: [2263822.755844] [ 916] 0 916 42372 0 233472 2022 0 networkd-dispat
May 30 10:01:42 compute03 kernel: [2263822.755845] [ 921] 0 921 301259 0 348160 6201 0 containerd
May 30 10:01:42 compute03 kernel: [2263822.755846] [ 923] 112 923 26804 0 233472 291 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755847] [ 929] 0 929 46488 0 262144 2000 0 unattended-upgr
May 30 10:01:42 compute03 kernel: [2263822.755848] [ 931] 0 931 300744 120 495616 12158 -500 dockerd
May 30 10:01:42 compute03 kernel: [2263822.755849] [ 944] 112 944 28924 1 262144 307 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755850] [ 945] 112 945 29478 11 270336 357 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755852] [ 946] 112 946 29478 0 270336 369 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755853] [ 947] 112 947 29478 12 270336 355 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755854] [ 952] 0 952 3666 0 73728 38 0 agetty
May 30 10:01:42 compute03 kernel: [2263822.755856] [ 954] 112 954 27903 0 258048 360 0 zabbix_agentd
May 30 10:01:42 compute03 kernel: [2263822.755857] [ 958] 0 958 3722 0 77824 36 0 agetty
May 30 10:01:42 compute03 kernel: [2263822.755858] [ 960] 0 960 18075 1 188416 191 -1000 sshd
May 30 10:01:42 compute03 kernel: [2263822.755859] [ 961] 0 961 72221 0 212992 274 0 polkitd
May 30 10:01:42 compute03 kernel: [2263822.755860] [ 6213] 1000 6213 19225 0 196608 346 0 systemd
May 30 10:01:42 compute03 kernel: [2263822.755861] [ 6214] 1000 6214 27956 0 245760 614 0 (sd-pam)
May 30 10:01:42 compute03 kernel: [2263822.755862] [ 6307] 1000 6307 63356 313 385024 12640 0 service
May 30 10:01:42 compute03 kernel: [2263822.755863] [ 3600] 0 3600 26925 0 65536 265 -999 containerd-shim
May 30 10:01:42 compute03 kernel: [2263822.755864] [ 3628] 999 3628 818153 332342 6262784 394513 0 python
May 30 10:01:42 compute03 kernel: [2263822.755865] [ 3703] 0 3703 26925 0 73728 271 -999 containerd-shim
May 30 10:01:42 compute03 kernel: [2263822.755875] [ 3732] 999 3732 818151 288134 6258688 438719 0 python
May 30 10:01:42 compute03 kernel: [2263822.755876] [ 4172] 0 4172 26925 0 73728 271 -999 containerd-shim
May 30 10:01:42 compute03 kernel: [2263822.755878] [ 4196] 999 4196 324489 77683 2314240 156754 0 python
May 30 10:01:42 compute03 kernel: [2263822.755879] [ 4332] 0 4332 27277 0 77824 318 -999 containerd-shim
May 30 10:01:42 compute03 kernel: [2263822.755880] [ 4362] 999 4362 286331 192099 2007040 4441 0 python
May 30 10:01:42 compute03 kernel: [2263822.755881] [ 4431] 0 4431 26925 0 73728 243 -999 containerd-shim
May 30 10:01:42 compute03 kernel: [2263822.755882] [ 4460] 999 4460 152545 57219 913408 5807 0 python
May 30 10:01:42 compute03 kernel: [2263822.755883] [ 4515] 1000 4515 354203 0 565248 13231 0 service
May 30 10:01:42 compute03 kernel: [2263822.755884] Out of memory: Kill process 3628 (python) score 353 or sacrifice child
May 30 10:01:42 compute03 kernel: [2263822.757606] Killed process 3628 (python) total-vm:3272612kB, anon-rss:1329368kB, file-rss:0kB, shmem-rss:0kB
May 30 10:01:42 compute03 kernel: [2263822.899423] oom_reaper: reaped process 3628 (python), now anon-rss:0kB, file-rss:0kB, shmem-rss:0kB
Как я вижу, в докере -500 очков, но при следующей попытке (через 30 минут) докера в таблице не было.
Каждые предыдущие слова докер слово - это просто информационные журналы. Никаких ошибок до этого неприличного начала.
Вы проверили, не была ли служба остановлена проблемой памяти. Linux out_of_memory автоматически завершает процесс, если системе не хватает памяти, что оперативная память или подкачка были заполнены, выполните следующую команду
grep docker /var/log/kern.log
Если он недоступен, посмотрите в / var / log / messages
Это всего лишь предположение