Мы создали кластер OCSFS2, используя расширения SUSE Linux High Availability Extensions на SLES SP3. Узлы кластера - это два сервера Apache, которые совместно используют один диск. У нас включен stonith и демон SBD. Работает нормально, но ...
Когда один из узлов отключен от сети (сетевая карта отключена в VirtualBox) и, следовательно, оба узла не могут обмениваться данными в кластере, оба сервера перезагружаются через 30 секунд.
Как только узлы снова запускаются, один из них продолжает перезагружать другой, и доступность сервиса полностью теряется. Для восстановления первый отказавший узел повторно подключается к сети (сетевая карта снова подключается в VBox), и проблема устраняется.
Вопросы такие:
Ожидаемый результат - обеспечить доступность на уровне обслуживания, так что если узел временно отключится от сети, другой сможет продолжить обслуживание.
Если я либо убиваю демон corosync (killall -9 corosync) на одном узле, либо узел отключается нормально, оставшийся узел продолжает работать нормально. Почему не работает при отключенной сетевой карте? : - /
Я предоставляю конфигурацию кластера (crm configure show) Вот: