Я веб-разработчик, и у меня очень неприятная проблема с одним из веб-сайтов, над которыми я работаю, и я надеялся, что кто-нибудь здесь сможет мне помочь.
Веб-сайт работает на выделенном сервере с CentOS 6.6, конфигурацией Nginx + Apache с Vesta в качестве панели управления. Не уверен, что здесь это актуально, но сайт использует Sphinx в качестве поисковой системы.
С середины января каждые 6 дней происходит сбой сервера, каждый раз в разное время. Восстановление обычно занимает около часа 15 минут, в течение которого нет записей ни в одном из файлов журнала.
После восстановления сервера две самые большие таблицы в базе данных MySQL выдают повторяющиеся ключевые ошибки, и поскольку они слишком велики, чтобы их можно было исправить достаточно быстро, я обычно усекаю их, а затем восстанавливаю из резервных копий.
Я проверил все журналы и не нашел никаких подсказок / соответствующей информации о сбое. Все журналы содержат обычные записи до момента сбоя, а затем возобновляются после восстановления сервера.
Я проверил все кроны для всех пользователей, и ни один не запускается каждые 6 дней.
использование ЦП и памяти до сбоев очень низкое: 1,6% ЦП и 16,5% памяти, что является обычной нагрузкой на сервер.
Примерно неделю я подозревал, что резервный cron Vesta каким-то образом связан с этим, так как он все время сохранял использование памяти на уровне 74%, даже после того, как он завершил работу, но я отключил его и, кроме уменьшения использования памяти, авария все еще существует.
Можете ли вы посоветовать, что я могу сделать, чтобы определить виновника? У меня закончились идеи.
Спасибо!
PS: Если вам нужно, чтобы я предоставил другую информацию, пожалуйста, дайте мне знать!
Попробуйте собрать показатели и построить их график. Нет ничего лучше графиков. Такие инструменты, как Munin, могут быть очень полезны в этих ситуациях, чтобы анализировать память, io, процессы, ЦП, сеть, прерывания и т. Д. С течением времени.
Также, если ваша машина является виртуальной машиной и имеет сетевую файловую систему, которая становится недоступной, это может объяснить разрыв во времени ведения журнала (для получения дополнительных баллов попробуйте вести журнал удаленно).