Как вы диагностируете проблемы сбоя RabbitMQ в Ubuntu 16?
Когда я бегу sudo service rabbitmq-server status
он сообщает:
● rabbitmq-server.service - RabbitMQ Messaging Server
Loaded: loaded (/lib/systemd/system/rabbitmq-server.service; enabled; vendor preset: enabled)
Active: failed (Result: timeout) since Wed 2018-03-21 19:44:18 UTC; 19min ago
Process: 1100 ExecStartPost=/usr/lib/rabbitmq/bin/rabbitmq-server-wait (code=killed, signal=TERM)
Process: 1099 ExecStart=/usr/sbin/rabbitmq-server (code=killed, signal=TERM)
Main PID: 1099 (code=killed, signal=TERM)
подразумевая, что он разбился или не запустился. Однако, когда я запускаю htop, я вижу десятки erlang и beam.smp
процессы, которые запускает Rabbit.
Кроме того, когда я перезапускаю Rabbit с помощью sudo service rabbitmq-server restart
он зависает около пяти минут, а затем, наконец, возвращается с:
Job for rabbitmq-server.service failed because a timeout was exceeded. See "systemctl status rabbitmq-server.service" and "journalctl -xe" for details.
Когда я бегу journalctl -xe
Я вижу массу сообщений вроде:
Mar 21 20:07:48 server1 postfix/error[3719]: 280524B3A: to=<root@mydomain.com>, orig_to=<root>, relay=none, delay=101268, delays=101268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspende
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2D046FAC: from=<>, size=3126, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2D8AD474F: from=<root@mydomain.com>, size=751, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3712]: 2ED9D499A: to=<root@mydomain.com>, orig_to=<root>, relay=none, delay=155868, delays=155868/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspende
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2EBCF3D40: from=<>, size=3128, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3706]: 2D8AD474F: to=<root@mydomain.com>, orig_to=<root>, relay=none, delay=38268, delays=38268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended:
Mar 21 20:07:48 server1 postfix/error[3716]: 2D046FAC: to=<root@mydomain.com>, relay=none, delay=76240, delays=76240/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to porta
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2C9DE3945: from=<>, size=3134, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2AA2A48B3: from=<root@mydomain.com>, size=751, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3717]: 2C9DE3945: to=<root@mydomain.com>, relay=none, delay=399644, delays=399644/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to po
Mar 21 20:07:48 server1 postfix/error[3701]: 2EBCF3D40: to=<root@mydomain.com>, relay=none, delay=181242, delays=181242/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to po
Mar 21 20:07:48 server1 postfix/error[3712]: 2AA2A48B3: to=<root@mydomain.com>, orig_to=<root>, relay=none, delay=59268, delays=59268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended:
Правильно ли я пришел к выводу, что Rabbit пытается отправить тонну электронной почты, блокируется и впоследствии дает сбой? Почему это?
Я исправил это с помощью:
sudo killall rabbitmq-server
sudo killall beam.smp
sudo rm -Rf /var/lib/rabbitmq/mnesia/*
sudo service rabbitmq-server start
Мне также пришлось повторно добавить свои пользовательские конфигурации, но в противном случае это вернуло их.
Это не похоже на "сбой" ... скорее, на постепенное завершение работы из-за проблемы. По всей видимости, истекло время ожидания службы. Я предполагаю, что это связано с тем, что ему не удалось подключиться к удаленному серверу обмена сообщениями. Отправленные вами "электронные письма" указывают на то, что он пытался отправить уведомление по электронной почте об ошибке ... что, вероятно, также означает, что почтовый сервер postfix не настроен для ретрансляции сообщений за пределами ящика.