Назад | Перейти на главную страницу

Infiniband P_Keys и ядро ​​Linux

Я пытаюсь настроить разделы Infiniband между двумя хостами Linux на базе Debian с ядром 4.15 и коммутатором Mellanox SX6036. Я установил раздел «DMZ» на коммутаторе, используя ключ PKey 0x0001 и добавил Port GUID числа из активного соединения IB обоих хостов Linux (которое оказывается ib1 на обоих).

Из того, что я прочитал Вот, и Вот Я сейчас бегу echo PKEY_VALUE > /sys/class/net/ib1/create_child на обоих хостах, и я должен получить новый интерфейс с именем ib1.PKEY_VALUE. Затем я могу назначить частный IP-адрес новым интерфейсам и обмениваться данными между хостами, которые являются членами раздела MY_PKEY. Так оно и должно работать?

В примере по ссылке kernel.org они используют 0x8001 который отлично работает на стороне Linux и создает интерфейс с именем ib1.8001. Однако переключатель Mellanox не позволяет мне установить PKey на это значение. Я получаю сообщение об ошибке: Неверный Pkey 0x8001. Значение должно быть от 0x1 до 0x7fff.. Я пробовал разные значения PKey на переключателе (например, 0x0001), но Linux всегда создает интерфейс с префиксом 0x8... который я не могу использовать для ключа PK на коммутаторе. Я что-то неправильно понял?


ОБНОВИТЬ: Надеюсь, что дополнительная информация может помочь. Вывод информации о ссылке для host1 и host2 вместе с выводом из ibnodes (приводит к одинаковому выводу на обоих хостах), ibstat (тот же вывод, кроме GUID) и ibdiagnet. Когда я назначаю IP-адрес ib.8001 интерфейс, dmesg на host1 показывает это:ib1.8001: P_Key 0x8001 is not found

Я добавляю новый снимок экрана текущего раздела, так как я изменил его, чтобы включить Полный членство для всех GUID портов.

host1# ip link sho
24: ib1.8001@ib1: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 4092 qdisc pfifo_fast state LOWERLAYERDOWN mode DEFAULT group default qlen 256
    link/infiniband 80:00:02:1f:fe:80:00:00:00:00:00:00:00:02:c9:03:00:10:df:5a brd 00:ff:ff:ff:ff:12:40:1b:80:01:00:00:00:00:00:00:ff:ff:ff:ff

host2# ip link sho
16: ib1.8001@ib1: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 4092 qdisc pfifo_fast state LOWERLAYERDOWN mode DEFAULT group default qlen 256
    link/infiniband 80:00:02:1e:fe:80:00:00:00:00:00:00:e4:1d:2d:03:00:e0:88:02 brd 00:ff:ff:ff:ff:12:40:1b:80:01:00:00:00:00:00:00:ff:ff:ff:ff

host2# ibnodes
Ca      : 0xe41d2d0300e08800 ports 2 "MT25408 ConnectX Mellanox Technologies"
Ca      : 0x0002c9030010df58 ports 2 "MT25408 ConnectX Mellanox Technologies"
Switch  : 0xf452140300823b60 ports 36 "MF0;msx6036:SX6036/U1" enhanced port 0 lid 1 lmc 0

host2# ibstat
CA 'mlx4_0'
    CA type: MT4099
    Number of ports: 2
    Firmware version: 2.34.5000
    Hardware version: 0
    Node GUID: 0xe41d2d0300e08800
    System image GUID: 0xe41d2d0300e08803
    Port 1:
            State: Down
            Physical state: Polling
            Rate: 10
            Base lid: 6
            LMC: 0
            SM lid: 1
            Capability mask: 0x0251486a
            Port GUID: 0xe41d2d0300e08801
            Link layer: InfiniBand
    Port 2:
            State: Active
            Physical state: LinkUp
            Rate: 40 (FDR10)
            Base lid: 2
            LMC: 0
            SM lid: 5
            Capability mask: 0x0251486a
            Port GUID: 0xe41d2d0300e08802
            Link layer: InfiniBand



host2# ibdiagnet
Loading IBDIAGNET from: /usr/lib/x86_64-linux-gnu/ibdiagnet1.5.7
-W- Topology file is not specified.
    Reports regarding cluster links will use direct routes.
Loading IBDM from: /usr/lib/x86_64-linux-gnu/ibdm1.5.7
-I- Using port 2 as the local port.
-I- Discovering ... 3 nodes (1 Switches & 2 CA-s) discovered.


-I---------------------------------------------------
-I- Bad Guids/LIDs Info
-I---------------------------------------------------
-I- No bad Guids were found

-I---------------------------------------------------
-I- Links With Logical State = INIT
-I---------------------------------------------------
-I- No bad Links (with logical state = INIT) were found

-I---------------------------------------------------
-I- General Device Info
-I---------------------------------------------------

-I---------------------------------------------------
-I- PM Counters Info
-I---------------------------------------------------
-I- No illegal PM counters values were found

-I---------------------------------------------------
-I- Fabric Partitions Report (see ibdiagnet.pkey for a full hosts list)
-I---------------------------------------------------
-I-    PKey:0x7fff Hosts:2 full:2 limited:0

-I---------------------------------------------------
-I- IPoIB Subnets Check
-I---------------------------------------------------
-I- Subnet: IPv4 PKey:0x7fff QKey:0x00000b1b MTU:2048Byte rate:10Gbps SL:0x00
-W- Suboptimal rate for group. Lowest member rate:40Gbps > group-rate:10Gbps

-I---------------------------------------------------
-I- Bad Links Info
-I- No bad link were found
-I---------------------------------------------------
----------------------------------------------------------------
-I- Stages Status Report:
    STAGE                                    Errors Warnings
    Bad GUIDs/LIDs Check                     0      0     
    Link State Active Check                  0      0     
    General Devices Info Report              0      0     
    Performance Counters Report              0      0     
    Partitions Check                         0      0     
    IPoIB Subnets Check                      0      1     

Ключи разделов InfiniBand используют старший бит (0x8000) для обозначения того, является ли хост полноправным членом раздела. Ограниченное членство означает, что хост может общаться только с полными членами раздела, в то время как полные члены могут общаться как с ограниченными, так и с полными членами.

В вашем случае попробуйте установить ключ раздела в переключателе на 0x1 и установить для хостов полное членство.