Назад | Перейти на главную страницу

Необычный сбой сервера на EC2, в системном журнале есть строка ^ @ ^ @ ^ @ ^ @ ^ @

Пытаясь понять причину, по которой сервер отключился на 20 минут, я просмотрел системный журнал за этот период времени и увидел следующее:

Jan  3 07:50:01 tools CRON[17085]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jan  3 07:55:01 tools CRON[17773]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jan  3 07:55:01 tools CRON[17774]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Jan  3 08:19:44 tools kernel: imklog 4.2.0, log source = /proc/kmsg started.
Jan  3 08:19:44 tools rsyslogd: [origin software="rsyslogd" swVersion="4.2.0" x-pid="470" x-info="http://www.rsyslog.com"] (re)start

EC2 показывает загрузку ЦП во время сбоя (посередине, до 13:00 UTC).

Так что в этот период времени даже ничего не видно. Ни один из наших других экземпляров EC2 не разбился, и я не могу найти доказательств того, что это была ошибка приложения. Фактически, это произошло на нашем сервере инструментов (apache, mongodb и redis). Monit тоже был запущен, но на момент сбоя в нем нет никаких подозрительных журналов.

Что могло вызвать этот сбой и что ^@значит в системном журнале?

Ответ пришел на форуме AWS: https://forums.aws.amazon.com/message.jspa?messageID=308434

Рид,

Возникла проблема с базовым оборудованием, которая привела к сбою базовой системы. Артефакт строк системного журнала может быть просто представлением того, что система находилась в процессе записи, когда произошел сбой, или эти строки могли быть получены из процесса cron, который выполнялся в предыдущей строке.

Натан