Мы начали мониторинг нашего веб-сервера с помощью Pingdom и обнаружили, что каждое воскресенье в 0:00 UTC у нас бывает несколько минут простоя.
Тест запускается каждую минуту и проверяет, возвращается ли успешный HTTP-ответ (код 200) через порт 80. Тест не проходит из-за тайм-аута (нет ответа через 30 секунд).
Вот что мы уже проверили - безуспешно:
Поскольку мы запускаем наш веб-сервер за балансировщиком нагрузки, я установил тест Pingdom для общедоступного DNS балансировщика нагрузки и общедоступного DNS веб-сервера, чтобы выяснить, есть ли проблема с балансировщиком нагрузки AWS - оба теста возвращают одинаковый результат.
Мы настроили Munin на нашем веб-сервере. Все выглядело нормально даже после поломки. Поскольку последний сбой длился всего 2 минуты, я полагаю, что Мунин не смог выявить потенциальную проблему (он проверяет только каждые 5 минут)
я проверил /var/log/apache2/error.log и / var / журнал / системный журнал на подозрительные записи
я проверил /etc/cron.weekly и / etc / crontab на подозрительные записи
Я искал файлы, созданные или измененные в последний раз в 0:00 и 0:15, используя этот метод:
touch -t 201209020000 начало
touch -t 201209020015 конец
найти / -новый старт -и! -Новый конец
(Ничего не найдено)
Кто-нибудь испытывал подобную проблему? Есть предложения, как найти причину такого поведения?
Это Ubuntu 10.04 LTS, работающая на экземпляре AWS m1.large.
Спасибо!
Есть некоторые отчеты, что процесс update-apt-xapi требует много использования процессора в течение нескольких минут. Работает по недельному расписанию. Он может вывести ваш ящик из строя, если обычная нагрузка тоже высока. Команда запускает update-apt-xapian-index для обновления индекса пакетов программного обеспечения.
См. Несколько советов по обходным путям здесь: http://empoccz.wordpress.com/2012/01/02/ubuntu-update-apt-xapi-takes-lot-of-cpu-usage-ii/ или https://askubuntu.com/questions/79481/is-100-cpu-usage-harmful- while-update-apt-xapi-runs