Назад | Перейти на главную страницу

Случайная и выборочная слепота ARP в VMWare ESXi 4.1

У нас есть несколько серверов VMWare ESX, разбросанных по нашей компании, для выполнения различных задач. Один конкретный хост ESXi демонстрирует очень необычное поведение. Мы обнаруживаем это, когда наша система мониторинга (Orion) уведомляет нас о том, что она больше не может пинговать ящик.

Перейдя на локальную консоль рассматриваемого гостя, мы видим, что он не может проверить связь с новыми адресами, которых еще нет в его таблице ARP.

Сначала мы думали, что проблема связана только с одним из наших гостей, так как казалось, что проблема всегда возникает с другим гостем, DevRedis. Однако сегодня днем ​​проблема поменялась местами и начала происходить на ApacheBox скорее, чем DevRedis.

Когда мне посчастливилось выявить проблему, я запустил tcpdump на обеих сторонах соединения (одна сторона - vmware, другая - физический веб-сервер) и заметил следующий ход событий:

  1. Гость ApacheBox отправляет ARP-запрос на физический адрес сервера WindowsBeast
  2. WindowsBeast отправляет ARP обратно в сеть, указывая его физический MAC-адрес.
  3. ApacheBox никогда не видит ответа ARP.

Рассматриваемый хост ESX запущен VMware ESXi, 4.1.0, 348481

Двое гостей (DevRedis и ApacheBox) оба работают под управлением CentOS 6.3, однако работают с двумя отдельными версиями ядра ( 2.6.32-279.9.1.el6.x86_64 и 2.6.32-279.el6.x86_64 ), поэтому я не совсем уверен, что это проблема CentOS.

Есть ли у кого-нибудь мысли о том, что может вызвать это? Кто-нибудь сталкивался с этим раньше?

Это похоже на то, что у вас на руках может быть MAC-коллизия. Тот факт, что две коробки меняются местами, подсказывает мне это. Что-то на уровне vSwitch может неправильно пересылать пакеты.