Вчера процессор на моем VPS-сервере на базе Xen вышел на 100% в течение двух часов, а затем вернулся в нормальное состояние, казалось бы, естественно.
Я проверил журналы, включая syslog, auth.log и другие, и ничего необычного не показалось.
Примерно в начале события системный журнал содержит следующие записи:
Apr 27 07:55:34 ace kernel: [3791215.833595] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=2962 PROTO=TCP SPT=49299 DPT=465 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace dovecot: pop3-login: Disconnected (no auth attempts): rip=209.126.230.73, lip=___
Apr 27 07:55:34 ace kernel: [3791216.012828] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=58312 PROTO=TCP SPT=49299 DPT=25 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace kernel: [3791216.133155] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
DST=___ LEN=76 TOS=0x00 PREC=0x00 TTL=244 ID=63315 PROTO=UDP SPT=49299 DPT=123 LEN=56
Но опять же, я получаю это все время. Это просто указывает на то, что UFW / iptables успешно заблокировал некоторые нежелательные соединения. Это не должно быть связано.
У меня есть ежедневная резервная копия, которая выполняется чуть менее чем за 2 часа до начала этого «события». Казалось, что он работает нормально, хотя вызывает более высокую нагрузку на сервер (но не загрузку процессора), чем обычно, что указывает на возможную проблему перегрузки ввода-вывода. Но это не совпало с событием 100% CPU.
У меня вопрос: как я могу исследовать причину подобного события, которое произошло в прошлом, учитывая, что этого больше не происходит?
Если у вас есть графики загрузки ЦП, они могут дать дополнительное представление о том, что ЦП делал в это время. Например, он мог ждать ввода-вывода диска, это называется Айовейт.
Если они недоступны, и вы не можете найти причину, этот инцидент вполне может быть отнесен на счет проблем на хост-сервере. Возможно, проблема с шумным соседом: некорректно работает виртуальная машина на том же хосте или аппаратный сбой (например, диск, это может привести к высокому IOWAIT).
Есть утилита, называемая поверх, она будет вести подробный учет ваших процессов и показать ответ здесь. atop будет делать «снимок» всего вашего процесса и использования ресурсов каждые xx минут (настраивается). Это не поможет вам сейчас, но поможет, если это повторится снова. Дополнительную информацию см. На верхнем веб-сайте: https://www.atoptool.nl/
P.s. Ubuntu 12.04 достиг статуса конца жизненного цикла, и вам следует подумать об обновлении машины, поскольку для этой версии больше нет обновлений безопасности. Смотрите цикл выпуска Ubuntu: https://ubuntu.com/about/release-cycle