Возникла странная проблема с back 2 back connection между машиной ESX 6 и CentOS 7.
Мы используем CentOS 7, напрямую подключенный к ESX, и мы используем его как iSCSI NAS - время от времени ESX сообщает, что не видит NAS, и соответствующее хранилище данных будет недоступно - когда это происходит, мы проверяем все, и все физическое в порядке, светодиоды на сетевых адаптерах горят, ethtool в Linux и ссылка на отчет ESX в порядке - когда мы проверяем arp, Linux знает интерфейс ESX, однако ESX не знает, и его кеш arp говорит о неполном. - когда мы проверили пакеты ARP / RARP с помощью tcpdump, произошло что-то странное, в Linux ARP получен из интерфейса ESX, и tcpdump показывает ответы Linux на запрос ARP, как каждый на ESX tcpdump не имеет ответа ARP, отправленного Linux. - Каким-то образом ссылка превратилась в дорогу с односторонним движением !?
Пожалуйста, проверьте команды и результаты, которые мы сделали в поисках подсказки:
[root@nas ~]# arp -an
? (10.10.10.2) at 00:50:56:XX:0d:77 [ether] on enp3s6
? (192.168.70.254) at 00:50:56:XX:99:c7 [ether] on enp5s0
[root@nas ~]# tcpdump -nnvli enp3s6 arp
tcpdump: listening on enp3s6, link-type EN10MB (Ethernet), capture size 65535 bytes
07:52:25.143360 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:25.143367 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28
07:52:26.143452 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:26.143454 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28
07:52:27.145667 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 46
07:52:27.145673 ARP, Ethernet (len 6), IPv4 (len 4), Reply 10.10.10.1 is-at 00:07:e9:XX:07:93, length 28
[root@gahar:~] tcpdump-uw -nnvli vmk2 arp
tcpdump-uw: listening on vmk2, link-type EN10MB (Ethernet), capture size 96 bytes
07:52:25.523005 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:26.523247 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:27.524461 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:31.079580 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:31.079634 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:32.080746 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
07:52:33.081656 ARP, Ethernet (len 6), IPv4 (len 4), Request who-has 10.10.10.1 tell 10.10.10.2, length 28
[root@gahar:~] ping 10.10.10.1
PING 10.10.10.1 (10.10.10.1): 56 data bytes
sendto() failed (Host is down)
[root@gahar:~] esxcli network ip neighbor list
Neighbor Mac Address Vmknic Expiry State Type
-------------- ----------------- ------ -------- ----- -------
192.168.33.10 00:0c:29:XX:ea:60 vmk0 965 sec Unknown
192.168.33.254 00:50:56:XX:99:c7 vmk0 1194 sec Unknown
10.10.10.1 (incomplete) vmk2 -3 sec Unknown
Временное решение:
[root@gahar:~] esxcli network nic down -n vmnic2
[root@gahar:~] esxcli network nic up -n vmnic2
[root@gahar:~] ping 10.10.10.1
PING 10.10.10.1 (10.10.10.1): 56 data bytes
64 bytes from 10.10.10.1: icmp_seq=0 ttl=64 time=0.207 ms
64 bytes from 10.10.10.1: icmp_seq=1 ttl=64 time=0.212 ms
64 bytes from 10.10.10.1: icmp_seq=2 ttl=64 time=0.257 ms
--- 10.10.10.1 ping statistics ---
3 packets transmitted, 3 packets received, 0% packet loss
round-trip min/avg/max = 0.207/0.225/0.257 ms
Имея все вышеперечисленное, ищу решение. Я не могу найти первопричину.