Назад | Перейти на главную страницу

Драйверы bnx2 и e1000e на RHEL 5.3 обнаруживают повторяющуюся потерю канала

ОБНОВИТЬ: Проблема заключалась в неисправном оборудовании коммутатора. Спасибо всем за хорошие предложения по отладке. Правильный ответ, данный MattyB за предложение использовать другой переключатель, чтобы проверить, сохраняется ли проблема.

Привет, сбой сервера,

Я пытаюсь отладить проблему на нескольких узлах, которые постоянно обнаруживают потерю связи в течение 1-2 минут за раз, когда потери связи быть не должно.

Серверы:
- HP DL360 G5
- 1 встроенный 2-портовый Broadcom NetXtreme II BCM5708 Gigabit Ethernet (rev 12) (с использованием драйвера bnx2)
- 1 4-портовый контроллер Intel 82571EB Gigabit Ethernet (медный) (версия 06) (с использованием драйвера e1000e)

Факты:
- На всех узлах оба порта Broadcom и один порт Intel подключены к одному коммутатору.
- ОБНОВИТЬ: Потеря связи обнаружена на портах как сетевых адаптеров, так и Broadcom и Intel.
- Все порты имеют скорость Гбит / с, за исключением портов Intel на двух узлах, скорость которых составляет 100 Мбит / с. Все скорости устанавливаются с использованием автосогласования.
- Все узлы были недавно обновлены с RHEL 5.0 до RHEL 5.3.

В настоящее время я пытаюсь получить доступ к коммутатору, чтобы установить соединение Gbps / full duplex. Есть что-нибудь Другой чем то, что можно сделать, чтобы диагностировать или исправить эту проблему? Какая дополнительная информация была бы полезна?

РЕДАКТИРОВАТЬ: Я запустил tcpdump на одном из затронутых интерфейсов, и все, что я вижу, это пакеты LLDP и один запрос членства в группе IGMP. Я также установил переключатель, чтобы заставить все порты подключаться к каналам 1000 Мбит / с в полнодуплексном режиме. Означает ли это, что проблема является внутренней для узла и не вызвана какими-либо настройками коммутатора?

====== Журнал сообщений ======
Oct 29 11:30:36 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 11:30:37 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:30:39 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 11:30:39 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 11:31:08 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:31:10 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:56:41 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:56:41 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:58:34 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:58:34 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:02 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:03 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:05 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:59:05 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:34 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:35 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:37 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON

====== вывод ethtool для всех подключенных интерфейсов на одном узле ======
[root@db1 ~]# ethtool eth0
Settings for eth0:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth1
Settings for eth1:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth2
Settings for eth2:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 100Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: pumbag
Wake-on: d
Current message level: 0x00000001 (1)
Link detected: yes

Это странно. Поскольку вы испытываете потерю на обоих сетевых адаптерах, я подозреваю, что это исключит конкретную проблему с прошивкой, проблему с драйвером ядра или неисправное оборудование (за исключением материнской платы). Хотя опубликованные вами журналы относятся к BNX2. Вы проверили, что другие машины, подключенные к этому же коммутатору с таким же профилем оборудования, не имеют такой же проблемы? Вы должны попробовать жестко закодировать сетевые адаптеры на 100 Мбит / полный, а также коммутатор, и, как бы глупо это ни звучало, проверьте наличие неисправных кабелей. Наконец, если позволяют ресурсы, почему бы не попробовать подключить эту машину к коммутатору третьей стороны (например, netgear или чему-то столь же безобидному). ?

Если несколько узлов одновременно теряют связь, я бы даже сказал, что у вас может быть ошибка связующего дерева, которая постоянно приводит к отказу вашего коммутатора и его повторной конвергенции. Любая дополнительная информация о топологии поможет диагностировать проблему.

У вас установлена ​​последняя версия микропрограммы сетевого адаптера и сервера? Было несколько подобных проблем при использовании устаревшей прошивки сетевого адаптера в системах HP DL380 и 360.

Как выглядит dmesg для сетевой карты Intel?

Можете ли вы получить доступ к журналам коммутатора? Что это за марка / модель выключателя?

ethtool -K ethX tso off

Попробуйте это на сетевых адаптерах Broadcom. он должен отключить функцию ToE, которая обычно вызывает много проблем.

Вы также можете попробовать установить для портов дуплексный или симплексный режим вместо автоматического согласования.