Назад | Перейти на главную страницу

kvm - ядра процессора отключаются и включаются в цикле

На нашем сервере виртуализации с KVM ядра процессора отключаются и включаются в цикле через 10 минут (каждое отключение приводит к зависанию на 15 секунд для всех виртуальных машин).

Это происходит из-за грозы до недели, когда все виртуальные серверы были зависли из-за ошибки диска данных (системный диск был в порядке). Итак, мы поменяли диск с данными. Затем мы попытались обновить хост-систему с ubuntu natty (ядро 2.6) до точной ubuntu (3.2) без изменений.

Я нашел только один форум об этом, без решения http://ubuntuforums.org/showthread.php?p=12071553

Я попробовал включить отладку kvm

/sys/kernel/debug/tracing/trace_pipe

и найти точное место по времени ядра в системном журнале, но я не понимаю журнал и не вижу важной разницы

Я думаю, это может быть плохой сигнал от материнской платы. Из-за ошибки диска это могло случиться с материнской платой, но я не знаю, как найти

Есть часть системного журнала с одним циклом отключения / включения

 Jul 14 15:36:44 node-01 kernel: [56713.568733] kvm: disabling virtualization on CPU1
 Jul 14 15:36:44 node-01 kernel: [56713.668842] CPU 1 is now offline
 Jul 14 15:36:44 node-01 kernel: [56713.670835] CPU 3 MCA banks CMCI:2 CMCI:3 CMCI:5
 Jul 14 15:36:44 node-01 kernel: [56713.673771] kvm: disabling virtualization on CPU2
 Jul 14 15:36:44 node-01 kernel: [56713.674492] CPU 2 is now offline
 Jul 14 15:36:44 node-01 kernel: [56713.680172] kvm: disabling virtualization on CPU3
 Jul 14 15:36:44 node-01 kernel: [56713.681114] CPU 3 is now offline
 Jul 14 15:36:44 node-01 kernel: [56713.681119] SMP alternatives: switching to UP code
 Jul 14 15:36:44 node-01 kernel: [56713.701971] init: anacron main process (3613) killed      by TERM signal
 Jul 14 15:36:44 node-01 kernel: [56713.709803] r8169 0000:01:00.0: eth0: link down
 Jul 14 15:36:44 node-01 kernel: [56713.710421] br0: port 1(eth0) entering forwarding state
 Jul 14 15:36:47 node-01 kernel: [56716.675313] r8169 0000:01:00.0: eth0: link up
 Jul 14 15:36:47 node-01 kernel: [56716.676438] br0: port 1(eth0) entering forwarding state
 Jul 14 15:36:47 node-01 kernel: [56716.676454] br0: port 1(eth0) entering forwarding state
 Jul 14 15:36:56 node-01 kernel: [56725.666787] br0: port 1(eth0) entering forwarding state
 Jul 14 15:37:02 node-01 kernel: [56730.815937] SMP alternatives: switching to SMP code
 Jul 14 15:37:02 node-01 kernel: [56730.825021] Booting Node 0 Processor 1 APIC 0x4
 Jul 14 15:37:02 node-01 kernel: [56730.825025] smpboot cpu 1: start_ip = 9a000
 Jul 14 15:37:02 node-01 kernel: [56730.836033] Calibrating delay loop (skipped) already calibrated this CPU
 Jul 14 15:37:02 node-01 kernel: [56730.837012] kvm: enabling virtualization on CPU1
 Jul 14 15:37:02 node-01 kernel: [56730.858555] NMI watchdog enabled, takes one hw-pmu counter.
 Jul 14 15:37:02 node-01 kernel: [56730.862547] Booting Node 0 Processor 2 APIC 0x1
 Jul 14 15:37:02 node-01 kernel: [56730.862551] smpboot cpu 2: start_ip = 9a000
 Jul 14 15:37:02 node-01 kernel: [56730.873460] Calibrating delay loop (skipped) already calibrated this CPU
 Jul 14 15:37:02 node-01 kernel: [56730.874453] kvm: enabling virtualization on CPU2
 Jul 14 15:37:02 node-01 kernel: [56730.896371] NMI watchdog enabled, takes one hw-pmu counter.
 Jul 14 15:37:02 node-01 kernel: [56730.898581] Booting Node 0 Processor 3 APIC 0x5
 Jul 14 15:37:02 node-01 kernel: [56730.898586] smpboot cpu 3: start_ip = 9a000
 Jul 14 15:37:02 node-01 kernel: [56730.909496] Calibrating delay loop (skipped) already calibrated this CPU
 Jul 14 15:37:02 node-01 kernel: [56730.910227] kvm: enabling virtualization on CPU3
 Jul 14 15:37:02 node-01 kernel: [56730.930644] NMI watchdog enabled, takes one hw-pmu counter.
 Jul 14 15:37:02 node-01 kernel: [56730.963737] r8169 0000:01:00.0: eth0: link down
 Jul 14 15:37:02 node-01 kernel: [56730.964069] br0: port 1(eth0) entering forwarding state
 Jul 14 15:37:04 node-01 kernel: [56733.432535] r8169 0000:01:00.0: eth0: link up
 Jul 14 15:37:04 node-01 kernel: [56733.433808] br0: port 1(eth0) entering forwarding state
 Jul 14 15:37:04 node-01 kernel: [56733.433823] br0: port 1(eth0) entering forwarding state
 Jul 14 15:37:13 node-01 kernel: [56742.424751] br0: port 1(eth0) entering forwarding state

Спасибо за любой совет, как найти ошибку.

В нашем случае такое поведение начинается после ошибки диска (и предыдущая гроза может быть скачком электричества). Поэтому я не знаю, есть ли плохой сигнал от материнской платы о частоте / мощности / спящем режиме и т. Д. Или это была плохая конфигурация pm-utils.

Удаление пакета pm-utils решило эту проблему.

Раньше мы пытались обновить дистрибутив с ubuntu natty (ядро 2.6) до точного ubuntu (ядро 3.2), но безуспешно.

Другая вещь, которую я пробовал, - это отключить возможность включения / отключения ядер процессора (через / sys / devices / system / cpu / cpu * / online file).

Существует опция ядра nr_cpus =, которая может быть установлена ​​на количество используемых процессоров (ядер). Установка этого параметра должна отключить горячую замену процессора. Но в моем случае после установки параметров загрузки grub это не имеет никакого эффекта (вместо отсутствия / sys / devices / system / cpu / cpu * / online file).

nr_cpus = [SMP] Maximum number of processors that   an SMP kernel
        could support.  nr_cpus=n : n >= 1 limits the kernel to
        supporting 'n' processors. Later in runtime you can not
            use hotplug cpu feature to put more cpu back to online.
        just like you compile the kernel NR_CPUS=n