Сегодня один из наших узлов CentOS 6.5 KVM от OVH вышел из строя после 46 дней безотказной работы, и мы не смогли найти причину, по которой у нас раньше была эта проблема с ядром OVH на другом сервере, но на этом работает обычное ядро:
Linux 2.6.32-431.11.2.el6.x86_64 #1 SMP Tue Mar 25 19:59:55 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
Наши инструменты мониторинга показали следующее:
Похоже, очень высокая нагрузка, хотя никакие виртуальные машины не делали ничего странного.
Я взглянул на /var/log/messages/
файл сначала ничего не показывал во время простоя:
Jun 16 11:15:11 server dhcpd: DHCPINFORM from 5.XXX.XX.104 via viifbr0
Jun 16 11:15:11 server dhcpd: DHCPACK to 5.XXX.XX.104 (02:XX:00:XX:XX:d3) via viifbr0
-----Downtime no logs-----
Jun 16 12:24:01 server kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jun 16 12:24:01 server rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1493" x-info="http://www.rsyslog.com"] start
Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpuset
Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpu
Я проверил dmesg
также, хотя я не уверен, что означает вывод, поскольку в большинстве случаев он выглядит нормально: http://pastebin.com/raw.php?i=YyRCYZdn
Я не уверен, что это могло быть, можно ли еще проверить журналы?
Когда вы отлаживаете сбои виртуальной машины, вам необходимо сотрудничество с поставщиком услуг хостинга. Высокая нагрузка вроде бы после аварии. Это заставляет меня думать, что Linux, работающий на физическом сервере, вышел из строя или имел проблемы (например, работает очень медленно, проблемы с хранением ...).