Назад | Перейти на главную страницу

Почему оба узла в кластере OCFS2 продолжают перезагружаться?

Мы создали кластер OCSFS2, используя расширения SUSE Linux High Availability Extensions на SLES SP3. Узлы кластера - это два сервера Apache, которые совместно используют один диск. У нас включен stonith и демон SBD. Работает нормально, но ...

Когда один из узлов отключен от сети (сетевая карта отключена в VirtualBox) и, следовательно, оба узла не могут обмениваться данными в кластере, оба сервера перезагружаются через 30 секунд.

Как только узлы снова запускаются, один из них продолжает перезагружать другой, и доступность сервиса полностью теряется. Для восстановления первый отказавший узел повторно подключается к сети (сетевая карта снова подключается в VBox), и проблема устраняется.

Вопросы такие:

Почему это происходит?
Как я могу избежать такого поведения?

Ожидаемый результат - обеспечить доступность на уровне обслуживания, так что если узел временно отключится от сети, другой сможет продолжить обслуживание.

Если я либо убиваю демон corosync (killall -9 corosync) на одном узле, либо узел отключается нормально, оставшийся узел продолжает работать нормально. Почему не работает при отключенной сетевой карте? : - /

Я предоставляю конфигурацию кластера (crm configure show) Вот: