Я потратил на это несколько дней, и мне удалось заставить SR-IOV работать с картой Mellanox Infiniband с использованием последней прошивки.
Виртуальные функции отображаются в Dom0 как
06: 00.1 Сетевой контроллер: Семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3] 06: 00.2 Сетевой контроллер: Семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3] 06: 00.3 Сетевой контроллер: Семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3 ] 06: 00.4 Сетевой контроллер: Семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3]
Затем я отключил 06: 00.1 от Dom0 и назначил его xen-pciback.
Я передал это в тестовый домен Xen.
lspci внутри тестового DomU показывает:
00: 01.1 Сетевой контроллер: Семейство Mellanox Technologies MT27500 [Виртуальная функция ConnectX-3]
У меня в DomU загружены следующие модули
mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib
Вывод dmesg для драйверов mlx4 показывает:
[ 11.956787] mlx4_core: Mellanox ConnectX core driver v1.1 (Dec, 2011)
[ 11.956789] mlx4_core: Initializing 0000:00:01.1
[ 11.956859] mlx4_core 0000:00:01.1: enabling device (0000 -> 0002)
[ 11.957242] mlx4_core 0000:00:01.1: Xen PCI mapped GSI0 to IRQ30
[ 11.957581] mlx4_core 0000:00:01.1: Detected virtual function - running in slave mode
[ 11.957606] mlx4_core 0000:00:01.1: Sending reset
[ 11.957699] mlx4_core 0000:00:01.1: Sending vhcr0
[ 11.976090] mlx4_core 0000:00:01.1: HCA minimum page size:512
[ 11.976672] mlx4_core 0000:00:01.1: Timestamping is not supported in slave mode.
[ 12.068079] <mlx4_ib> mlx4_ib_add: mlx4_ib: Mellanox ConnectX InfiniBand driver v1.0 (April 4, 2008)
[ 12.184072] mlx4_core 0000:00:01.1: mlx4_ib: multi-function enabled
[ 12.184075] mlx4_core 0000:00:01.1: mlx4_ib: operating in qp1 tunnel mode
У меня даже появляется устройство ib0.
ib0 Link encap:UNSPEC HWaddr 80-00-05-49-FE-80-00-00-00-00-00-00-00-00-00-00
inet addr:10.10.10.10 Bcast:10.10.10.255 Mask:255.255.255.0
UP BROADCAST MULTICAST MTU:2044 Metric:1
RX packets:117303 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:256
RX bytes:6576132 (6.5 MB) TX bytes:0 (0.0 B)
Могу даже локально пинговать 10.10.10.10.
Однако эти пинги не отправляются на ткань бесконечной полосы.
Похоже, что ссылка не работает. ibstat показывает:
CA 'mlx4_0'
CA type: MT4100
Number of ports: 1
Firmware version: 2.30.3000
Hardware version: 0
Node GUID: 0x001405005ef41f25
System image GUID: 0x002590ffff175727
Port 1:
State: Down
Physical state: LinkUp
Rate: 10
Base lid: 9
LMC: 0
SM lid: 1
Capability mask: 0x02514868
Port GUID: 0x0000000000000000
Как мне поднять? ссылка domU активна, а не VF?
И ответ на самом деле находится здесь: По этой ссылке: http://www.spinics.net/lists/linux-rdma/msg13307.html
Что мне нужно, чтобы порт подчиненного VF стал активным? Я запускаю opensm 3.3.13 на другом компьютере, достаточно ли нового? (требуется ли SR-IOV поддержка SM?)
Да, как заметил Хэл, как минимум вам понадобится opensm 3.3.14 (http://marc.info/?l=linux-rdma&m=133819320432335&w=2), так как это первая версия для поддержки alias-guid и др., необходимых для SRIOV, 3.3.15 также отсутствует, поэтому вам нужна вторая версия, которая поддерживает это ... в основном вам нужна ссылка IB для PPF и ведомого устройства чтобы зарегистрировать для него псевдоним guid @ SM. Мы (команда IL) не работали во вторник / среду, как на праздники, постараемся сообщить вам дополнительную информацию сегодня вечером, а если нет, то, конечно, завтра.
Я обновил OpenSM и скоро сообщу.
РЕДАКТИРОВАТЬ: ОК, теперь он работает. Однако я получаю выброс журнала для opensm. Процесс OpenSM записывает сотни записей в секунду в форме:
Sep 30 20:36:26 707784 [7DC1700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 707810 [7DC1700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708096 [8DC3700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708119 [8DC3700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708391 [FF5B0700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708421 [FF5B0700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708696 [3DB9700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708719 [3DB9700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
И указанные выше сообщения об ошибках исчезли, когда я перезагрузился и освободил Dom0 больше памяти. В настоящее время у меня выделено 2 ГБ с отключенным автобаллоном. К сожалению, они вернулись без видимой причины. Итак, я задал новый вопрос, связанный с этим Вот
Я не совсем уверен, почему это работает в dom0, но в моем случае мне нужно, чтобы OpenSM работал на Dom0, у которого есть VF. Я предполагаю, что это связано с тем, что экземпляр OpenSM, работающий на Dom0, знает о VF и может рекламировать их, в то время как менеджер подсети на другом узле не знает? это мое предположение. Я надеюсь, что другой узел xen также подберет его VF. Это может стать другим вопросом. На данный момент он работает с одним узлом Xen.
OpenSM должен быть установлен и запущен на хосте гипервизора, чтобы вызвать состояние. Затем запустите OpenSM с опцией: PORTS = "ALL".