У нас есть выделенная машина, которая в основном служит веб-сервером. На нем работает Plesk для нескольких доменов, наших веб-серверов и центрального узла munin, который подключается примерно к 10 другим машинам, на которых запущен munin-node.
Сегодня наш сервер перестал отвечать. Любые вызовы на любой веб-сайт или почтовые серверы будут отключены. SSH также отключался, и пользователи жаловались, что больше не могут играть.
Я выполнил полный сброс через панель управления провайдера, и через некоторое время все снова было восстановлено. Итак, я проверил системный журнал: наши службы мониторинга сообщили о первом тайм-ауте в 11:36. Последние записи в системном журнале перед этим временем следующие:
Jul 7 11:30:19 xxx CRON[7666]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 7 11:30:30 xxx CRON[7671]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Мог ли Мунин как-то быть виноватым в том, что сервер не отвечает? Если да, то как мы можем решить эту проблему?
Нет никаких указаний на то, что Мунин виноват. Вы просто видите последние записи журнала, которые удалось записать вашему серверу.
Существует так много причин, по которым сервер мог выйти из строя или зависнуть. Было бы неплохо взглянуть на консоль, прежде чем делать полную перезагрузку. Вам придется смотреть глубже и следить за вещами. Первое, на что я обращаю внимание, это проблемы нехватки памяти, которые могут привести к тому, что программное обеспечение не отвечает или перестает работать. Или очень большая нагрузка ... Или ... столько всего.
Если бы у вас было хорошее программное обеспечение, отслеживающее ресурсы / доступность этого сервера и т. Д., Вам нужно было бы заняться чем-то еще в следующий раз, когда это произойдет. Я очень рекомендую это.
Согласно этому страница Мунина Ваша последняя запись соответствует запущенному плагину и отвечает за проверку статуса обновлений пакетов apt на ваших отслеживаемых серверах.
Я бы отключил плагин на несколько дней и посмотрел, как он пойдет, но, учитывая, что это голый металлический сервер, необходимо провести SMART-проверку жесткого диска, а затем и тест RAM.
Для проверки ОЗУ требуется перезагрузка и отключение питания, проверка диска SMART не нарушает работу