Назад | Перейти на главную страницу

Почему перестал работать Red Hat Cluster Suite?

Я тестировал Cluster Suite на CentOS 6.4, и он работал нормально, но сегодня я заметил [8 августа, когда этот вопрос был задан изначально], что ему не нравится конфигурация, которая раньше работала. Я попытался воссоздать конфигурацию с нуля с помощью CCS, но это дало ошибки проверки.


Отредактировано 21 августа:

Теперь я полностью переустановил коробку из минимальной установки CentOS 6.4 x86_64, добавив следующие пакеты и их зависимости:

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

и

yum install rgmanager ccs

Все следующие команды работали:

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

и в результате получился такой конфиг:

<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
    <fence_daemon/>
    <clusternodes>
        <clusternode name="ha-01" nodeid="1"/>
        <clusternode name="ha-02" nodeid="2"/>
    </clusternodes>
    <cman/>
    <fencedevices/>
    <rm>
        <failoverdomains/>
        <resources>
            <ip address="10.1.1.3" monitor_link="1"/>
            <ip address="10.1.1.4" monitor_link="1"/>
            <ip address="10.110.0.3" monitor_link="1"/>
            <ip address="10.110.8.3" monitor_link="1"/>
        </resources>
        <service autostart="1" name="routing-a" recovery="restart">
            <ip ref="10.1.1.3"/>
            <ip ref="10.110.0.3"/>
        </service>
        <service autostart="1" name="routing-b" recovery="restart">
            <ip ref="10.1.1.4"/>
            <ip ref="10.110.8.3"/>
        </service>
    </rm>
</cluster>

Однако, если я использую ccs_config_validate или попробуйте запустить cman сервис, он не работает с:

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

В чем дело? Раньше это работало!

Он снова начал работать, после того, как yum update танцы. Я сравнил старое и новое /var/lib/cluster/cluster.rng и, сюрприз, сюрприз, есть разница. В той системе, которая не работала, отсутствовали определения для <ip> элемент.

Текущая версия системы была установлена ​​с того же минимального компакт-диска, и у меня есть пошаговая процедура команд для вырезания и вставки, которая работала несколько раз, пока я ее разрабатывал, затем не удавалось почти два месяца, теперь запускается снова работает. Я собирал коробку примерно полдюжины раз, так что, думаю, это не процедура.

Возможно, это ошибка со стороны Red Hat, но я не знаю, как узнать, какие изменения были внесены в этот файл за последние два месяца.

Я думаю, вам не хватает доменов аварийного переключения, если вы хотите определить службу в кластере redhat, сначала вам нужно определить домен аварийного переключения, вы можете использовать домен аварийного переключения для многих служб или по одному для каждой службы.

Если вам нужна дополнительная информация об отказоустойчивом домене "man clurgmgrd"

Отказоустойчивый домен - это упорядоченное подмножество членов, к которым может быть привязана служба. Последующий

представляет собой список семантики, определяющей параметры того, как различные параметры конфигурации влияют на поведение отказоустойчивого домена: