Назад | Перейти на главную страницу

Что такое MGID в сетях Infiniband и как он соотносится с группой многоадресной рассылки?

У меня есть эта ошибка в моем журнале Open Subnet Manager.

Sep 22 01:49:53 router3-1 docker[12431]: Sep 22 01:49:53 089580 [68860700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7ebb0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:180b:1493:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:49:57 router3-1 docker[12431]: Sep 22 01:49:57 328091 [6585A700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3ac0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:1868:c9d6:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:04 router3-1 docker[12431]: Sep 22 01:50:04 973005 [60850700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a60001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:9811:7b48:ff7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:05 router3-1 docker[12431]: Sep 22 01:50:05 291935 [5F04D700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a40001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:88f3:3bdf:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:09 router3-1 docker[12431]: Sep 22 01:50:09 699903 [6685C700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7e110001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:787e:40cb:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:22 router3-1 docker[12431]: Sep 22 01:50:22 389193 [63856700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3f00001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:c867:44ab:fe7f:0, insufficient components specified for implicit create (comp_mask 0x10083)

Это происходит довольно часто.

Это очень похожая проблема на следующий отчет об ошибке, представленный здесь: https://bugzilla.redhat.com/show_bug.cgi?id=1138851

В этом конкретном отчете ошибка относится к группе mcast NTP.
то есть MGID ff12: 401b: ffff :: 101, где 101 каким-то образом интерпретируется как 224.0.1.1, и отсюда они говорят, что это NTP.

Как этот 101 стал таким и что такое MGID?

В моем случае MGID: ffff: 0: ffff: 0: c867: 44ab: fe7f: 0

Это означает 224.0.0.0? он утверждает, что зарезервирован. Что тут происходит?

Что касается ff12: 401b: ffff :: 101, мы можем сослаться на RFC-5156 и увидите, что ff00 :: / 8 - адреса многоадресной рассылки. Ищу в RFC-4291, ff12: ... разбивается, где ff обозначает многоадресную рассылку, а 12 разбивается на флаги 0x1 и область видимости 0x2. flags 0x1 - это «непостоянно назначенный (« временный »или« динамически »назначенный) групповой адрес», а область 0x2 - Link-Local.

Следующие две группы, 401b: ffff ::, определяют длину подсети. Тогда, согласно RFC-3306, последние четыре байта - это идентификатор группы, в данном случае 0x101. 0x101 зарезервировано для NTP, согласно RFC-2375. Возможно, не случайно, это соответствует двум последним байтам многоадресного IPv4-адреса NTP, 224.0.1.1 (RFC-5771).

MGID - это просто идентификатор группы многоадресной рассылки. У вас есть IP over InfiniBand (IPoIB), настроенный на вашем интерфейсе IB, и вместе с ним IP-адрес (введите «ip addr», чтобы перечислить ваши интерфейсы и связанные адреса - вы получите локальный адрес ссылки IPv6 на любом интерфейсе .) Теперь ваш NTP-сервер работает, рассылает трафик и пытается использовать любой интерфейс - отсюда и многоадресная рассылка в вашей сети IB.

Ваш адрес немного отличается - это не стандартный адрес многоадресной рассылки IPv6, поскольку FFFF: ... зарезервирован. Однако обычно быстрый обходной путь - просто перезапустить OpenSM, и проблема исчезнет.