У меня есть простая установка кардиостимулятора / коросинхронизатора с тремя узлами. Ubuntu 14.04.2. 3 узла, 2 ресурса - IP - настроены.
ii crmsh 1.2.5+hg1034-1ubuntu4 all CRM shell for the pacemaker cluster manager
ii pacemaker 1.1.10+git20130802-1ubuntu2.3 amd64 HA cluster resource manager
ii pacemaker-cli-utils 1.1.10+git20130802-1ubuntu2.3 amd64 Command line interface utilities for Pacemaker
ii corosync 2.3.3-1ubuntu1 amd64 Standards-based cluster framework (daemon and modules)
ii libcorosync-common4 2.3.3-1ubuntu1 amd64 Standards-based cluster framework, common library
Работает безупречно, за исключением того, что если оставить на одну неделю без переключения / перезагрузки, кластер перестает реагировать на смерть узлов. Мне удалось воспроизвести ситуацию несколько раз.
Когда я перезагружаю узел, команда crm status на других узлах показывает его как «UP» (id ожидает увидеть состояние DOWN между ними).
Если я перезапускаю другой узел, предпочтительно контроллер домена, то на последнем узле у меня «нет кворума» - 2 из 3 временно не работают.
Наконец, когда первые два загрузятся снова, кластер снова станет здоровым.
Если сейчас я перезапущу любой из 3 узлов - я сразу же вижу, что статус crm обновляется с помощью «ВНИЗ» на данном узле. И это будет работать в течение следующих нескольких дней, пока снова не станет «устаревшим».
Может кто подскажет, в чем может быть причина? Недавно перезапущенный кластер несколько дней работает отлично. Потом DC стал ... "несвежим" ??
grepping для 'corosync \ | pacemakerd \ | crmd \ | attrd' в системных журналах не показал мне проблему (или я ее пропустил)
Следует ли мне запланировать ежедневный перезапуск corosync / кардиостимулятора, чтобы предотвратить это странное состояние?
Вот мой основной файл corosync.conf:
totem {
version: 2
token: 3000
token_retransmits_before_loss_const: 10
join: 60
consensus: 3600
vsftype: none
max_messages: 20
clear_node_high_bit: yes
secauth: off
threads: 0
rrp_mode: none
interface {
ringnumber: 0
bindnetaddr: 10.20.0.0
mcastaddr: 226.94.1.1
mcastport: 5405
}
}
amf {
mode: disabled
}
quorum {
# Quorum for the Pacemaker Cluster Resource Manager
provider: corosync_votequorum
expected_votes: 2
}
aisexec {
user: root
group: root
}
logging {
fileline: off
to_stderr: yes
to_logfile: no
to_syslog: yes
syslog_facility: daemon
debug: off
timestamp: on
logger_subsys {
subsys: AMF
debug: off
tags: enter|leave|trace1|trace2|trace3|trace4|trace6
}
}