Я пытаюсь настроить и протестировать beegfs с помощью RDMA, как описано в:
https://community.mellanox.com/s/article/howto-configure-and-test-beegfs-with-rdma?t=1570613300675
Моя тестовая конфигурация:
ОС: ubuntu 16.04 на обоих серверах (версия ядра 4.15.0-65-generic)
OFED: MLNX_OFED_LINUX-4.6-1.0.1.1
версия beegfs: 1.7.3 (последняя)
Адаптер: ConnectX-3 VPI
Серверы: две одинаковые серверные системы (128 ГБ ОЗУ). Один действует как BeeGFS-сервер, а другой как BeeGFS-клиент. В приведенном ниже примере используются системы с двумя процессорами Intel Xeon E5-2697v2 (Ivy Bridge).
Все работает до тех пор, пока я не попытаюсь пересобрать клиента. Процесс перестройки дает мне два предупреждения:
CC [M] /opt/beegfs/src/client/client_module_7/build/../source/common/net/sock/RDMASocket.o
/bin/sh: 1: [: 0005: unexpected operator
CC [M] /opt/beegfs/src/client/client_module_7/build/../source/common/net/sock/ibv/IBVSocket.o
/bin/sh: 1: [: 0005: unexpected operator
Если я попытаюсь перезапустить клиент, я получаю сообщение об ошибке:
root@optiplex2:~# systemctl status beegfs-client.service
● beegfs-client.service - Start BeeGFS Client
Loaded: loaded (/lib/systemd/system/beegfs-client.service; enabled; vendor preset: enabled)
Active: failed (Result: exit-code) since wo 2019-10-09 10:07:35 CEST; 16s ago
Process: 17984 ExecStop=/etc/init.d/beegfs-client stop (code=exited, status=0/SUCCESS)
Process: 18007 ExecStart=/etc/init.d/beegfs-client start (code=exited, status=1/FAILURE)
Main PID: 18007 (code=exited, status=1/FAILURE)
okt 09 10:07:18 optiplex2 beegfs-client[18007]: modprobe: ERROR: could not insert 'beegfs': Unknown symbol in module, or unknown parameter (see dmesg)
okt 09 10:07:18 optiplex2 beegfs-client[18007]: - BeeGFS module autobuild
okt 09 10:07:19 optiplex2 beegfs-client[18007]: Building beegfs client module
okt 09 10:07:22 optiplex2 beegfs-client[18007]: /bin/sh: 1: [: 0005: unexpected operator
okt 09 10:07:23 optiplex2 beegfs-client[18007]: /bin/sh: 1: [: 0005: unexpected operator
okt 09 10:07:35 optiplex2 beegfs-client[18007]: modprobe: ERROR: could not insert 'beegfs': Unknown symbol in module, or unknown parameter (see dmesg)
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Main process exited, code=exited, status=1/FAILURE
okt 09 10:07:35 optiplex2 systemd[1]: Failed to start Start BeeGFS Client.
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Unit entered failed state.
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Failed with result 'exit-code'.
Все работает, если я не использую драйвер OFED. В этом случае вместо RDMA используется стек TCP / IP.
Любая идея, как это решить? Я также пробовал более старые версии драйвера OFED, но они не компилировались в моей системе.
Лучший,
Ремко
Попробуйте это в своем /etc/beegfs/beegfs-client-autobuild.conf:
buildArgs=-j8 BEEGFS_OPENTK_IBVERBS=1 OFED_INCLUDE_PATH=/usr/src/ofa_kernel/default/include/