Я пытаюсь настроить трехузловой HA-кластер с помощью pacemaker / cman на centos 6.5. STONITH отключен (pcs property set stonith-enabled=false
).
Когда я моделирую проблему с сетью (iptables -A INPUT -s $OTHER_NODES_IP -j DROP
) главный ресурс перемещается на другой узел и останавливается на отказавшем.
Когда я снова включаю сеть (iptables -D INPUT -s $OTHER_NODES_IP -j DROP
) отказавший узел не может автоматически присоединиться к кластеру.
В журнале есть: corosync[3323]: cman killed by node 3 because we were killed by cman_tool or other application
Как можно перезапустить cman вместо того, чтобы его убить?
Идея в том, что вы хотеть cman будет убит, если он потеряет связь с кластером. Это называется «ограждением». В это время узел будет уходить от остальной части кластера. Если бы он просто вернулся в производство без проверки, вы могли бы получить довольно серьезное повреждение или неопределенное поведение среди ваших узлов.
Идея здесь в том, что, ограждая неисправный узел, вы помогаете обеспечить целостность данных. После того, как вы устранили неисправность и убедились, что узел обновлен, вы можете легко перезапустить cman.