Назад | Перейти на главную страницу

Как можно перезапустить CMAN после сбоя сети

Я пытаюсь настроить трехузловой HA-кластер с помощью pacemaker / cman на centos 6.5. STONITH отключен (pcs property set stonith-enabled=false).

Когда я моделирую проблему с сетью (iptables -A INPUT -s $OTHER_NODES_IP -j DROP) главный ресурс перемещается на другой узел и останавливается на отказавшем.

Когда я снова включаю сеть (iptables -D INPUT -s $OTHER_NODES_IP -j DROP) отказавший узел не может автоматически присоединиться к кластеру.

В журнале есть: corosync[3323]: cman killed by node 3 because we were killed by cman_tool or other application

Как можно перезапустить cman вместо того, чтобы его убить?

Идея в том, что вы хотеть cman будет убит, если он потеряет связь с кластером. Это называется «ограждением». В это время узел будет уходить от остальной части кластера. Если бы он просто вернулся в производство без проверки, вы могли бы получить довольно серьезное повреждение или неопределенное поведение среди ваших узлов.

Идея здесь в том, что, ограждая неисправный узел, вы помогаете обеспечить целостность данных. После того, как вы устранили неисправность и убедились, что узел обновлен, вы можете легко перезапустить cman.