Назад | Перейти на главную страницу

Как исследовать причину 100% -ного события CPU, которое длилось несколько часов?

Вчера процессор на моем VPS-сервере на базе Xen вышел на 100% в течение двух часов, а затем вернулся в нормальное состояние, казалось бы, естественно.

Я проверил журналы, включая syslog, auth.log и другие, и ничего необычного не показалось.

Примерно в начале события системный журнал содержит следующие записи:

Apr 27 07:55:34 ace kernel: [3791215.833595] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=2962 PROTO=TCP SPT=49299 DPT=465 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace dovecot: pop3-login: Disconnected (no auth attempts): rip=209.126.230.73, lip=___
Apr 27 07:55:34 ace kernel: [3791216.012828] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=58312 PROTO=TCP SPT=49299 DPT=25 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace kernel: [3791216.133155] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=76 TOS=0x00 PREC=0x00 TTL=244 ID=63315 PROTO=UDP SPT=49299 DPT=123 LEN=56

Но опять же, я получаю это все время. Это просто указывает на то, что UFW / iptables успешно заблокировал некоторые нежелательные соединения. Это не должно быть связано.

У меня есть ежедневная резервная копия, которая выполняется чуть менее чем за 2 часа до начала этого «события». Казалось, что он работает нормально, хотя вызывает более высокую нагрузку на сервер (но не загрузку процессора), чем обычно, что указывает на возможную проблему перегрузки ввода-вывода. Но это не совпало с событием 100% CPU.

У меня вопрос: как я могу исследовать причину подобного события, которое произошло в прошлом, учитывая, что этого больше не происходит?

Если у вас есть графики загрузки ЦП, они могут дать дополнительное представление о том, что ЦП делал в это время. Например, он мог ждать ввода-вывода диска, это называется Айовейт.

Если они недоступны, и вы не можете найти причину, этот инцидент вполне может быть отнесен на счет проблем на хост-сервере. Возможно, проблема с шумным соседом: некорректно работает виртуальная машина на том же хосте или аппаратный сбой (например, диск, это может привести к высокому IOWAIT).

Есть утилита, называемая поверх, она будет вести подробный учет ваших процессов и показать ответ здесь. atop будет делать «снимок» всего вашего процесса и использования ресурсов каждые xx минут (настраивается). Это не поможет вам сейчас, но поможет, если это повторится снова. Дополнительную информацию см. На верхнем веб-сайте: https://www.atoptool.nl/

P.s. Ubuntu 12.04 достиг статуса конца жизненного цикла, и вам следует подумать об обновлении машины, поскольку для этой версии больше нет обновлений безопасности. Смотрите цикл выпуска Ubuntu: https://ubuntu.com/about/release-cycle