Я использую keepalived для переключения плавающего IP-адреса между двумя виртуальными машинами.
/etc/keepalived/keepalived.conf
на ВМ 1:
vrrp_instance VI_1 {
state MASTER
interface ens160
virtual_router_id 101
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass secret
}
virtual_ipaddress {
1.2.3.4
}
}
/etc/keepalived/keepalived.conf
на ВМ 2:
vrrp_instance VI_1 {
state MASTER
interface ens160
virtual_router_id 101
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass secret
}
virtual_ipaddress {
1.2.3.4
}
}
Это в основном работает нормально, за одним исключением: каждый раз, когда systemd обновляется (он работает под управлением Ubuntu 18.04), он перезагружает свой сетевой компонент, что приводит к удалению плавающего IP-адреса, поскольку он не настроен в системе. Поскольку оба экземпляра keepalived все еще могут пинговать друг друга, никто из них не видит ничего плохого и ни один из них не реагирует на это, в результате чего плавающий IP-адрес остается отключенным.
Я обнаружил, что вы можете проверить IP-адрес с помощью такого простого скрипта:
vrrp_script chk_proxyip {
script "/sbin/ip addr |/bin/grep 1.2.3.4"
}
vrrp_instance VI_1 {
# [...]
track_script {
chk_proxyip
}
}
Но я не уверен, что это рабочий подход.
Если я правильно понимаю, то, если я настрою этот скрипт на ВМ1, произойдет следующее:
FAULT
состояние и прекращает трансляцию пакетов vrrpНа данный момент IP снова работает на VM2, но VM1 останется в этом состоянии, потому что IP больше никогда не появится на VM1. Если VM2 выйдет из строя (по какой-либо причине), VM1 не возьмет ее на себя, потому что она все еще находится в FAULT
штат.
Как я могу гарантировать, что плавающий IP-адрес всегда активен на одной из виртуальных машин?
Дальнейшие тесты:
Я попытался пропинговать плавающий IP-адрес вместо того, чтобы проверять, активен ли он на определенном хосте в check_script:
vrrp_script chk_proxyip {
script "/bin/ping -c 1 -w 1 1.2.3.4"
interval 2
}
Настройка этого скрипта на узле 2 привела к следующему:
BACKUP
к FAULT
MASTER
Результат: IP остался выключенным.
Настройка скрипта на узле 1 привела к следующему:
MASTER
к FAULT
BACKUP
к MASTER
, настраиваем плавающий IP на узле 2Ну а потом ...
Feb 13 10:11:26 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:27 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:29 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:32 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:33 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:36 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:38 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:39 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
Feb 13 10:11:41 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering BACKUP STATE
Feb 13 10:11:44 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Transition to MASTER STATE
Feb 13 10:11:45 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Entering MASTER STATE
Feb 13 10:11:47 node2 Keepalived_vrrp[3486]: VRRP_Instance(VI_1) Received advert with higher priority 150, ours 100
...
Мне пришлось перезапустить keepalived на node1, чтобы остановить игру в пинг-понг между узлами.
Мы столкнулись с этой проблемой и решили, что это проблема с systemd-networkd в ubuntu 18.04, которая теперь использует netplan. Более новая версия keepalived должна исправить это, так как она может обнаруживать удаление плавающего IP-адреса, которое вызывает аварийное переключение, см. https://github.com/acassen/keepalived/issues/836.
Более новая версия keepalived недоступна в 18.04, и вместо того, чтобы пытаться выполнить резервное копирование, мы решили остаться на ubuntu 16.04 и подождать до ubuntu 20.04 для наших серверов, которые используют keepalived.
Эта проблема исправлена в keepalived 2.0.0 от 26.05.2018, см. журнал изменений keepalived
- Мониторинг удаления VIP / eVIP и переход к резервному копированию, если VIP / eVIP удален, разблокирует его, настроив опцию запрета отслеживания.
Я думаю, что ваш общий подход хорош, но вам нужно переосмыслить условия тестирования. Состояние, которое вас беспокоит, заключается в том, перезапускает ли systemd инфраструктуру сети (косвенное следствие этого, независимо от того, работает ли ваш VIP), так что это то, что вам нужно проверить.
У меня нет системы, которую я могу легко протестировать, набирая это, поэтому YMMV, однако systemctl is-active network.service
может быть достаточно, чтобы покрыть это. В противном случае проверка состояния systemctl show network.service | grep 'ActiveState'
для состояния, отличного от «активного», должно это делать.
Кстати, не следует ли настраивать один из ваших узлов с состоянием «РЕЗЕРВНОЕ КОПИРОВАНИЕ», а не с обоими как «МАСТЕР»?
В качестве обходного пути я настроил плавающий IP-адрес как дополнительный IP-адрес на основном узле (с более высоким приоритетом)
/etc/netplan/01-netcfg.yaml:
network:
version: 2
renderer: networkd
ethernets:
ens160:
addresses: [ 1.2.3.5/24, 1.2.3.4/24 ]
gateway4: 1.2.3.254
nameservers:
search: [ example.com ]
addresses:
- "1.2.3.40"
Таким образом, при загрузке или перенастройке systemd плавающий IP-адрес находится на основном узле. В случае сбоя он переходит к вторичному узлу через keepalived. Если первичный узел возвращает ответ, IP-адрес высвобождается с помощью поддержки активности на вторичном узле.
На самом деле это не решение, но пока ничего лучше не вижу.
Обновить
Хотя этот обходной путь работал, у него были некоторые побочные эффекты. После перезагрузки плавающий IP-адрес существовал на интерфейсе дважды:
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
link/ether 00:50:56:a3:d7:d1 brd ff:ff:ff:ff:ff:ff
inet 1.2.3.5/24 brd 1.2.3.255 scope global ens160
valid_lft forever preferred_lft forever
inet 1.2.3.4/32 scope global ens160
valid_lft forever preferred_lft forever
inet 1.2.3.4/24 brd 1.2.3.255 scope global secondary ens160
valid_lft forever preferred_lft forever
Это вроде ни на что не повлияло, сработало, но меня это обеспокоило. В итоге я получил ответ от mp3foley и переустановил виртуальные машины с Ubuntu 16.04.
Я думаю, вы можете выполнить проверку ping на плавающем IP-адресе, а затем, когда он не удастся, перезапустить службу keepalived на всех узлах
Ты IP вернешься
Поместите это в cronjob, который запускается каждую минуту или 5 минут