У меня есть простая четырехузловая среда Oracle VM. Сервер управления, работающий в vmware, сервер nfs для общего хранилища и два сервера Oracle VM, на которых работает настоящий гипервизор.
По какой-то причине узел, на котором запущена основная служба пула, внезапно перезагрузится без очевидной причины. Я почти уверен, что это проблема программного обеспечения, возможно, своего рода сторожевой таймер кластера. Чтобы было ясно, перезагружается виртуальный сервер / гипервизор, а не гостевые машины.
Кто-нибудь видел подобные проблемы или есть какие-либо предложения относительно того, где мне начать поиск первопричины?
Я не вижу ничего подозрительного в журналах / var / log / ovs * /, куда бы я ни посмотрел?
Документация от Oracle оставляет желать лучшего.
Оказывается, узлы не обменивались данными правильно из-за того, что имя узла узла было указано в адресе обратной связи в / etc / hosts. Кластерные службы будут выполнять перезагрузку без уведомления для защиты общего хранилища.
Я не уверен, есть ли у вас красивые причудливые графики, которые поставляются с VM Management, или нет. Если вы это сделаете, они действительно предоставят приличную информацию о том, что делают память, процессор и диски. Может быть, есть какая-то корреляция? Оттуда вы можете начать смотреть на top и ps, чтобы увидеть, что именно работает и используется, когда сервер отказывает.
Также вы можете установить серверы в режим отладки? Они это поддерживают?
Я надеюсь, что это поможет вам хотя бы начать работу.
Вы используете ocfs2? если да, увеличьте тайм-аут ocfs2 в /etc/sysconfig/o2cb.conf