Мы купили несколько серверов Dell PowerEdge R730 с картами QLogic / Broadcom BCM57810 PCI Express и подключили их к коммутаторам Cisco 4900M - каналы 10 Гбит не работают надежно. Иногда они не подключаются, иногда подключаются через несколько минут, а когда подключаются, отключаются несколько раз в день. Отключение может длиться 4 минуты или 2 часа.
Коммутаторы Cisco имеют существующие медные каналы 10 Гбит / с с сетями хранения данных Dell PowerVault, которые стабильны и работают в течение многих месяцев.
Я вижу отключения в журналах VMware в виде сообщений вроде:
bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
и
network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
Я не вижу никаких полезных кодов ошибок или предыдущих сообщений, только сообщения, вызванные обрывом ссылки. В Windows он отображается как отключенная карта, а на коммутаторе - как отключенный порт коммутатора.
Когда ссылки подключаются, они работают - ping ping jumbo frame, устанавливаются сеансы iSCSI, появляются хранилища данных со всеми найденными путями. Но связи непостоянны.
Мы проверили:
mtu 9000
и switchport access vlan NNN
Мы обратились в службу поддержки Dell, они не нашли ничего плохого и предполагают, что коммутаторы неисправны, но поскольку коммутаторы используют медные соединения 10 Гб с хранилищем Dell PowerVault, и, насколько я могу судить по нашим журналам мониторинга коммутаторов и SAN журналы событий, эти ссылки не сбрасываются, я не желаю думать, что коммутаторы Cisco являются проблемой.
Они работают под управлением iOS 15.1 (1) SG2, которая не является последней, но коммутаторы работают и стабильны, я не хочу случайно менять прошивку «на всякий случай».
Это происходит на нескольких серверах, нескольких сетевых картах, нескольких брендах сетевых карт, нескольких версиях драйверов, нескольких коммутаторах. Это не может быть отдельное неисправное оборудование. Все это в стойке с кондиционером и питанием.
Это первая попытка хоста VMware переключать соединения на 10 Гбит, поэтому у нас нет другой конфигурации, с которой можно было бы сравнить, или оборудования, к которому мы можем подключиться.
Что еще можно проверить?
- редактировать: Мы искали обновление прошивки коммутатора, но я только что нашел соответствующую ссылку - похоже, это известная проблема между модулем Cisco WS-X4908-10G-RJ45 и картами Broadcom BCM57810, в зависимости от версии IOS - https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay который имеет много актуальных обсуждений и приводит к:
https://tools.cisco.com/bugsearch/bug/CSCug68370
Проблемы взаимодействия WS-X4908-10G-RJ45 и Broadcom 57810S 10Gb BASE-T
CSCug68370
Описание
Признак: порты BaseT 10 Гбит / с (на WS-X4908-10G-RJ45), подключенные к серверам Dell 820 с помощью Broadcom 57810S DP 10Gb BASE-T. При перезагрузке коммутатора или удалении / повторной установке кабеля порты появляются через долгое время (до 1 часа) или не открываются вообще. Условия: 1) Модуль WS-X4908-10G-RJ45 2) Версии от 15.0 (2) от SG до 15.0 (2) SG7, от 15.1 (2) SG до 15.1 (2) SG3 Обходной путь: понизить до 12.2 (54) SG
Это не совсем та же модель сервера, и здесь не упоминаются карты Intel, но проблема довольно точная.
Обновите свои хосты ESXi. Это единственное, что вы действительно упустили при выполнении действий по устранению неполадок.
Вашей установке 5.5 почти 1 год !!
На момент написания статьи текущая версия ESXi 5.5 есть 2718055. Текущий номер сборки ESXi 6.0: 2809209.
Dell, HP, не имеет значения ... вы все равно должны обновлять свои установки ESXi. Много людей игнорировать это, и это вторая по частоте причина непреднамеренных простоев в тех средах, которые я вижу.
Ну похоже это ошибка Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 и обновление до одной из "известных фиксированных" версий IOS (15.1 (2) SG4), похоже, устранило это.