Назад | Перейти на главную страницу

Перезагрузка узлов Oracle VM 2.2 без очевидной причины

У меня есть простая четырехузловая среда Oracle VM. Сервер управления, работающий в vmware, сервер nfs для общего хранилища и два сервера Oracle VM, на которых работает настоящий гипервизор.

По какой-то причине узел, на котором запущена основная служба пула, внезапно перезагрузится без очевидной причины. Я почти уверен, что это проблема программного обеспечения, возможно, своего рода сторожевой таймер кластера. Чтобы было ясно, перезагружается виртуальный сервер / гипервизор, а не гостевые машины.

Кто-нибудь видел подобные проблемы или есть какие-либо предложения относительно того, где мне начать поиск первопричины?

Я не вижу ничего подозрительного в журналах / var / log / ovs * /, куда бы я ни посмотрел?

Документация от Oracle оставляет желать лучшего.

Оказывается, узлы не обменивались данными правильно из-за того, что имя узла узла было указано в адресе обратной связи в / etc / hosts. Кластерные службы будут выполнять перезагрузку без уведомления для защиты общего хранилища.

Я не уверен, есть ли у вас красивые причудливые графики, которые поставляются с VM Management, или нет. Если вы это сделаете, они действительно предоставят приличную информацию о том, что делают память, процессор и диски. Может быть, есть какая-то корреляция? Оттуда вы можете начать смотреть на top и ps, чтобы увидеть, что именно работает и используется, когда сервер отказывает.

Также вы можете установить серверы в режим отладки? Они это поддерживают?

Я надеюсь, что это поможет вам хотя бы начать работу.

Вы используете ocfs2? если да, увеличьте тайм-аут ocfs2 в /etc/sysconfig/o2cb.conf