Во-первых, я недавно взял на себя управление кластером proxmox, которым у меня не было опыта управления ранее (я совершенно новичок в управлении кластером, но не так уж плох в Linux).
pve-manager/5.1-46/ae8241d4 (running kernel: 4.13.13-6-pve)
У меня есть 2 узла xen, на которых запущено несколько контейнеров и виртуальных машин. Вчера перестал отвечать контейнер на Xen2, в котором работает база данных mysql. Я смог войти в контейнер через ssh и попытался перезапустить mysql только для того, чтобы получить сообщение об ошибке в строках, что он не смог подключиться к mysql.sock. Поэтому я решил просто выключить контейнер и снова запустить его. Я выбрал «выключение» в пользовательском интерфейсе proxmox для контейнера, который затем отключился. Затем я нажал кнопку «Пуск», в которой записывались логи proxmox:
CT 110 - Start ERROR: command 'systemctl start pve-container@110' failed: exit code 1
Итак, я попытался запустить «запуск системы ...» через ssh. Это займет некоторое время, и тогда я получу следующее:
Job for pve-container@110.service failed because a timeout was exceeded.
See "systemctl status pve-container@110.service" and "journalctl -xe" for details.
Вот результат 'systemctl status ...':
● pve-container@110.service - PVE LXC Container: 110
Loaded: loaded (/lib/systemd/system/pve-container@.service; static; vendor preset: enabled)
Active: failed (Result: timeout) since Thu 2018-06-07 08:35:22 BST; 43s ago
Docs: man:lxc-start
man:lxc
man:pct
Process: 1603366 ExecStart=/usr/bin/lxc-start -n 110 (code=killed, signal=TERM)
Tasks: 1 (limit: 4915)
CGroup: /system.slice/system-pve\x2dcontainer.slice/pve-container@110.service
└─1532500 [lxc monitor] /var/lib/lxc 110
Jun 07 08:33:52 xen2 systemd[1]: Starting PVE LXC Container: 110...
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.
и journalctl -xe:
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
-- Subject: Unit pve-container@110.service has failed
-- Defined-By: systemd
--
-- Unit pve-container@110.service has failed.
--
-- The result is failed.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.
Вскоре после попытки перезапустить контейнер в первый раз, весь узел xen2 начал отображать серые вопросительные знаки рядом со всеми его виртуальными машинами / контейнерами, и они потеряли свои метки (см. Снимок экрана):
Несмотря на это, все остальные виртуальные машины / контейнеры в xen2 по-прежнему работают нормально. Итак, я решил запустить следующие команды, чтобы посмотреть, что произойдет:
service pvedaemon restart (ничего не изменилось) service pveproxy restart (ничего не изменилось) service pvestatd restart (виртуальные машины начали показывать имена в пользовательском интерфейсе proxmox (но не в контейнерах), но это длилось всего 10-15 минут)
Я не решаюсь обновить или перезапустить весь узел xen из-за неизвестной стороны конфигурации и возможных подводных камней, а также того, что для его бизнеса важно иметь хотя бы что-то работающее. Кроме того, я просмотрел / var / log / syslog и не увидел ничего, что указывало бы на то, почему контейнер разбился.
В идеале я хочу достичь: Определить, почему произошел сбой контейнера базы данных (110). Успешно запустить контейнер базы данных снова. Определить, почему узел xen2 не передает данные пользовательскому интерфейсу о своей виртуальной машине / контейнерах. Исправить данные отчетов в пользовательском интерфейсе для node Опять же, пожалуйста, цените, что я новичок в proxmox, но я знаю, что знаю Linux.
Спасибо за любые советы / знания по устранению этой проблемы. Если вы хотите, чтобы я поделилась какой-либо другой информацией, дайте мне знать.
Привет, Дэвид
У меня также была проблема с похожими симптомами (все узлы, виртуальные машины и CT переходят в состояние «неизвестно»). При использовании командной строки все выглядело нормально, и поэтому это было больше неприятностью, чем что-либо еще, потому что это означало, что мне пришлось перенести все и перезагрузить каждый узел по отдельности, прежде чем я снова смогу использовать веб-интерфейс. В конце концов я понял, что перезапуск следующих служб на каждом узле решает проблему следующим образом:
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd
Я рекомендую добавить их в скрипт и запустить с ./script.sh &
чтобы отключить его, если вы планируете использовать веб-интерфейс, поскольку это приведет к отключению сеанса консоли.
Я запускаю следующие команды в ssh, чтобы решить ту же проблему, что и на моем сервере, хотя я не использовал ./script.sh
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd
Просто наткнулся на ту же проблему (один узел кластера показывал только серые вопросительные знаки, а контейнеры теряли свои метки). В моем случае это было вскоре после обновления proxmox (с 5.3 до 5.4). Сделав похожие вещи, такие как OP, я наконец понял, что мой sshd больше не отображается на порту 22. После перезапуска sshd это было не сразу, но потребовалось около 15 минут или около того. Потом все снова было хорошо.