Я использую OVirt версии 4.2.3.8-1.el7, подключенный к 2 серверам IBM PureFlex с 10 узлами (5 + 5) всего.
OVirt внезапно потерял соединение со всеми узлами, но виртуальные машины на этих узлах работают без проблем. Я получаю следующую ошибку для всех узлов:
VDSM Node6 command GetCapabilitiesAsyncVDS failed: Message timeout which can be caused by communication issues
Узлы доступны по SSH, и я могу использовать SSH для этих узлов с машины управления OVirt.
Я перезапустил сервер управления OVirt один раз, и некоторое время он мог подключаться к узлам, но через некоторое время проблема снова возникла.
Может ли кто-нибудь помочь мне, как это можно исправить?
Я могу дать вам только контрольный список:
Можете ли вы пропинговать движок (управляющую машину) с каждого узла? Можете ли вы пропинговать все узлы с движка?
Вы что-нибудь меняли? Вы выпускали какие-нибудь обновления по узлам или двигателям? У вас есть резервные копии двигателя?
Кто-то изменил базовую сеть? Был ли IPv6 активирован в вашей сети недавно? IPv6 подходит для виртуальных машин, но для инфраструктуры ovirt (особенно для версии oVirt, которую вы используете) это может вызвать проблемы.
Кроме того, вы можете попытаться связаться с очень полезное сообщество oVirt.