У меня есть коммутатор HP ProCurve V1810-48G с несколькими подключенными к нему серверами, на которых работает Citrix XenServer (все в одной стойке). Коммутатор почти в своей конфигурации по умолчанию (нет VLAN, нет зеркалирования / мониторинга портов, нет других подключенных маршрутизаторов, кроме шлюза в Интернет).
При копировании нескольких сотен ГБ данных из server27
в каталог, смонтированный по NFS на server18
Я заметил сообщения об ошибках, связанных с сетью, для других серверов в той же стойке, как если бы они больше не могли отправлять / получать трафик друг другу или своим пользователям, например сообщения об ошибках от внешних служб веб-мониторинга о том, что конкретный веб-сайт больше не доступен .
После отмены команды копирования все снова стало нормально.
Обратите внимание, что все упомянутые серверы подключены к одному коммутатору и находятся в одной IP-сети. Я всегда думал, что соединение между двумя серверами на одном коммутаторе не повлияет на другие серверы, подключенные к коммутатору.
Затем я подключил коммутатор к серверу мониторинга zabbix. Вот скриншот: Вы можете видеть здесь, что исходящий трафик от server27 (внизу справа) на server18 (вторая строка слева), похоже, влияет на каждый сервер в стойке. Я также однажды приостановил процесс копирования, и вы можете увидеть падение сетевого трафика для всех остальных.
Также вы можете увидеть пропуски на диаграммах, когда zabbix-серверу (server21) не удалось подключиться к коммутатору.
Проверка сетевого трафика на стороне сервера (а не на стороне коммутатора) показала, что есть только нормальный трафик, а не огромный объем, показанный на диаграммах выше.
Некоторые комментаторы отметили, что трафик между двумя портами коммутатора не должен влиять на другие порты. Однако эта диаграмма предполагает, что где-то есть тонкая проблема. Трафик всего 20 МБ / с влияет на возможность подключения ко всем другим системам.
Это не так уж и далеко от "пробовали ли вы включать и выключать", но обновляли ли вы прошивку? Если вы посмотрите примечания к выпуску, там есть несколько исправлений, связанных с ARP.
https://h10145.www1.hp.com/downloads/SoftwareReleases.aspx?ProductNumber=J9660A
Что касается сбора дополнительной информации, чтобы люди могли помочь в устранении неполадок, есть ли у вас журналы самого коммутатора, когда это происходит?
Можете ли вы рассказать, какие изменения конфигурации, помимо информации управления, были внесены в состояние по умолчанию?
На каком-либо из рассматриваемых хостов работает Xen-сервер? Видите ли вы проблему между любыми другими хостами (теперь, когда у вас есть исторический график, вы сможете проверить, происходит ли это где-то еще)?
В обычных ситуациях нет, трафик от сервера A к B не влияет на C к D. Кроме того, однонаправленный поток от A к B использует только полную полосу пропускания в одном направлении, Gigabit Ethernet является двунаправленным, так что вы действительно использует только половину пропускной способности этих портов.
Единственная возможная проблема с «окончанием» сделки с коммутатором - это проблема конфигурации. Это может быть зеркалирование / мониторинг портов (когда он отправляет весь трафик с одного или нескольких других портов на один порт "монитора"). Или может быть какая-то политика использования (хотя я не думаю, что серия 1800 поддерживает политики полосы пропускания или аналогичные). У вас также может быть настройка vLAN с узким местом где-то маршрутизатором (простое подключение к одному коммутатору не обязательно делает их всех в одном широковещательном домене, даже если это вы мог иметь несколько подсетей в одном широковещательном домене, что заставляет снова использовать маршрутизатор).
нам нужно прояснить ситуацию, чтобы дать вам лучший ответ.
Можете ли вы подтвердить, что это все та же стойка или что коммутатор определенно имеет конфигурацию по умолчанию, такую как конфигурация порта, vlan, шлюз.
то есть DC1
стойка 1:
Переключатель HP
server_A
Server_B
DC2
стойка 2:
Переключатель HP
server_C
Server_D
В противном случае из объяснения, которое вы дали, похоже, что server_C и Server_D находятся в разных центрах обработки данных, но все еще находятся в одном сегменте сети для связи. В этом случае вы используете максимальное количество локальных ресурсов для передачи данных, и это может вызвать проблемы, если серверы_C и _D используют коммутатор HP DC2 rack2 в качестве магистрали.
Вопросы к вам: Вы работаете в дата-центре или системным администратором серверов? Можете ли вы предоставить сегмент сети? server_A и B в сети x.x.x.x и т. д. Как _C и _D связаны с _A и _B?
Пожалуйста, уточните расположение server_C и Server_D. I.E. они расположены в здании x или стойке x
Спасибо.