Назад | Перейти на главную страницу

«устарелое» состояние corosync / кардиостимулятора после недели бега

У меня есть простая установка кардиостимулятора / коросинхронизатора с тремя узлами. Ubuntu 14.04.2. 3 узла, 2 ресурса - IP - настроены.

ii  crmsh                               1.2.5+hg1034-1ubuntu4            all          CRM shell for the pacemaker cluster manager
ii  pacemaker                           1.1.10+git20130802-1ubuntu2.3    amd64        HA cluster resource manager
ii  pacemaker-cli-utils                 1.1.10+git20130802-1ubuntu2.3    amd64        Command line interface utilities for Pacemaker
ii  corosync                            2.3.3-1ubuntu1                   amd64        Standards-based cluster framework (daemon and modules)
ii  libcorosync-common4                 2.3.3-1ubuntu1                   amd64        Standards-based cluster framework, common library

Работает безупречно, за исключением того, что если оставить на одну неделю без переключения / перезагрузки, кластер перестает реагировать на смерть узлов. Мне удалось воспроизвести ситуацию несколько раз.

Когда я перезагружаю узел, команда crm status на других узлах показывает его как «UP» (id ожидает увидеть состояние DOWN между ними).

Если я перезапускаю другой узел, предпочтительно контроллер домена, то на последнем узле у меня «нет кворума» - 2 из 3 временно не работают.

Наконец, когда первые два загрузятся снова, кластер снова станет здоровым.

Если сейчас я перезапущу любой из 3 узлов - я сразу же вижу, что статус crm обновляется с помощью «ВНИЗ» на данном узле. И это будет работать в течение следующих нескольких дней, пока снова не станет «устаревшим».

Может кто подскажет, в чем может быть причина? Недавно перезапущенный кластер несколько дней работает отлично. Потом DC стал ... "несвежим" ??

grepping для 'corosync \ | pacemakerd \ | crmd \ | attrd' в системных журналах не показал мне проблему (или я ее пропустил)

Следует ли мне запланировать ежедневный перезапуск corosync / кардиостимулятора, чтобы предотвратить это странное состояние?

Вот мой основной файл corosync.conf:

totem {
        version: 2
        token: 3000
        token_retransmits_before_loss_const: 10
        join: 60
        consensus: 3600
        vsftype: none
        max_messages: 20
        clear_node_high_bit: yes
        secauth: off
        threads: 0
        rrp_mode: none
        interface {
                ringnumber: 0
                bindnetaddr: 10.20.0.0
                mcastaddr: 226.94.1.1
                mcastport: 5405
        }
}

amf {
        mode: disabled
}

quorum {
        # Quorum for the Pacemaker Cluster Resource Manager
        provider: corosync_votequorum
        expected_votes: 2
}

aisexec {
        user:   root
        group:  root
}

logging {
        fileline: off
        to_stderr: yes
        to_logfile: no
        to_syslog: yes
        syslog_facility: daemon
        debug: off
        timestamp: on
        logger_subsys {
                subsys: AMF
                debug: off
                tags: enter|leave|trace1|trace2|trace3|trace4|trace6
        }
}