keepalived не обнаруживает потерю виртуального IP

Я использую keepalived для переключения плавающего IP-адреса между двумя виртуальными машинами.

/etc/keepalived/keepalived.conf на ВМ 1:

vrrp_instance VI_1 {
    state MASTER
    interface ens160
    virtual_router_id 101
    priority 150
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret
    }
    virtual_ipaddress {
        1.2.3.4
    }
}

/etc/keepalived/keepalived.conf на ВМ 2:

vrrp_instance VI_1 {
    state MASTER
    interface ens160
    virtual_router_id 101
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass secret
    }
    virtual_ipaddress {
        1.2.3.4
    }
}

Это в основном работает нормально, за одним исключением: каждый раз, когда systemd обновляется (он работает под управлением Ubuntu 18.04), он перезагружает свой сетевой компонент, что приводит к удалению плавающего IP-адреса, поскольку он не настроен в системе. Поскольку оба экземпляра keepalived все еще могут пинговать друг друга, никто из них не видит ничего плохого и ни один из них не реагирует на это, в результате чего плавающий IP-адрес остается отключенным.

Я обнаружил, что вы можете проверить IP-адрес с помощью такого простого скрипта:

vrrp_script chk_proxyip {
    script "/sbin/ip addr |/bin/grep 1.2.3.4"
}

vrrp_instance VI_1 {
    # [...]
    track_script {
        chk_proxyip
    }
}

Но я не уверен, что это рабочий подход.

Если я правильно понимаю, то, если я настрою этот скрипт на ВМ1, произойдет следующее:

VM1 теряет IP из-за перезапуска systemd
keepalived на ВМ1 обнаруживает потерю IP
Keepalived переключается на FAULT состояние и прекращает трансляцию пакетов vrrp
Keepalived на VM2 обнаруживает потерю keepalived на VM1 и устанавливает плавающий IP-адрес

На данный момент IP снова работает на VM2, но VM1 останется в этом состоянии, потому что IP больше никогда не появится на VM1. Если VM2 выйдет из строя (по какой-либо причине), VM1 не возьмет ее на себя, потому что она все еще находится в FAULT штат.

Как я могу гарантировать, что плавающий IP-адрес всегда активен на одной из виртуальных машин?

Дальнейшие тесты:

Я попытался пропинговать плавающий IP-адрес вместо того, чтобы проверять, активен ли он на определенном хосте в check_script:

vrrp_script chk_proxyip {
    script "/bin/ping -c 1 -w 1 1.2.3.4"
    interval 2
}

Настройка этого скрипта на узле 2 привела к следующему:

удалил IP на узле 1 для тестирования
узел 2 обнаружил потерю IP и изменил его с BACKUP к FAULT
узел 1 проигнорировал изменение состояния и остался MASTER

Результат: IP остался выключенным.

Настройка скрипта на узле 1 привела к следующему:

удалил IP на узле 1
узел 1 обнаружил потерю IP и изменил его с MASTER к FAULT
узел 2 обнаружил изменение состояния на узле 1 и изменился с BACKUP к MASTER, настраиваем плавающий IP на узле 2

Ну а потом ...

Feb 13 10:11:26 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:27 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:32 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:33 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:38 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:39 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:44 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:45 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:47 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
...

Мне пришлось перезапустить keepalived на node1, чтобы остановить игру в пинг-понг между узлами.

keepalived

Мы столкнулись с этой проблемой и решили, что это проблема с systemd-networkd в ubuntu 18.04, которая теперь использует netplan. Более новая версия keepalived должна исправить это, так как она может обнаруживать удаление плавающего IP-адреса, которое вызывает аварийное переключение, см. https://github.com/acassen/keepalived/issues/836.

Более новая версия keepalived недоступна в 18.04, и вместо того, чтобы пытаться выполнить резервное копирование, мы решили остаться на ubuntu 16.04 и подождать до ubuntu 20.04 для наших серверов, которые используют keepalived.

Эта проблема исправлена в keepalived 2.0.0 от 26.05.2018, см. журнал изменений keepalived

Мониторинг удаления VIP / eVIP и переход к резервному копированию, если VIP / eVIP удален, разблокирует его, настроив опцию запрета отслеживания.

Я думаю, что ваш общий подход хорош, но вам нужно переосмыслить условия тестирования. Состояние, которое вас беспокоит, заключается в том, перезапускает ли systemd инфраструктуру сети (косвенное следствие этого, независимо от того, работает ли ваш VIP), так что это то, что вам нужно проверить.

У меня нет системы, которую я могу легко протестировать, набирая это, поэтому YMMV, однако systemctl is-active network.service может быть достаточно, чтобы покрыть это. В противном случае проверка состояния systemctl show network.service | grep 'ActiveState' для состояния, отличного от «активного», должно это делать.

Кстати, не следует ли настраивать один из ваших узлов с состоянием «РЕЗЕРВНОЕ КОПИРОВАНИЕ», а не с обоими как «МАСТЕР»?

В качестве обходного пути я настроил плавающий IP-адрес как дополнительный IP-адрес на основном узле (с более высоким приоритетом)

/etc/netplan/01-netcfg.yaml:

network:
  version: 2
  renderer: networkd
  ethernets:
    ens160:
      addresses: [ 1.2.3.5/24, 1.2.3.4/24 ]
      gateway4: 1.2.3.254
      nameservers:
          search: [ example.com ]
          addresses:
              - "1.2.3.40"

Таким образом, при загрузке или перенастройке systemd плавающий IP-адрес находится на основном узле. В случае сбоя он переходит к вторичному узлу через keepalived. Если первичный узел возвращает ответ, IP-адрес высвобождается с помощью поддержки активности на вторичном узле.

На самом деле это не решение, но пока ничего лучше не вижу.

Обновить

Хотя этот обходной путь работал, у него были некоторые побочные эффекты. После перезагрузки плавающий IP-адрес существовал на интерфейсе дважды:

2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
    link/ether 00:50:56:a3:d7:d1 brd ff:ff:ff:ff:ff:ff
    inet 1.2.3.5/24 brd 1.2.3.255 scope global ens160
       valid_lft forever preferred_lft forever
    inet 1.2.3.4/32 scope global ens160
       valid_lft forever preferred_lft forever
    inet 1.2.3.4/24 brd 1.2.3.255 scope global secondary ens160
       valid_lft forever preferred_lft forever

Это вроде ни на что не повлияло, сработало, но меня это обеспокоило. В итоге я получил ответ от mp3foley и переустановил виртуальные машины с Ubuntu 16.04.

Я думаю, вы можете выполнить проверку ping на плавающем IP-адресе, а затем, когда он не удастся, перезапустить службу keepalived на всех узлах

Ты IP вернешься

Поместите это в cronjob, который запускается каждую минуту или 5 минут