Проблема: я пытаюсь оценить (возможное) использование Lustre для нашей группы. С этой целью я пытался создать простую систему, чтобы изучить нюансы. Кажется, я не могу успешно пройти тест 'llmount.sh'.
Что я сделал: каждая система (одноразовые ПК с 70 ГБ HD, 2 ГБ ОЗУ) отформатирована с помощью CentOS 6.2. Затем я обновляю все и устанавливаю ядро Lustre с downloads.whamcloud.com и добавляю различные (соответствующие) RPM-файлы lustre и e2fs. Системы перезагружаются и тестируются с помощью 'llmount.sh' (а затем очищаются с помощью 'llmountcleanup.sh'). Пока все хорошо.
Сначала я создаю систему MDS / MDT с помощью:
/usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=200000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1
а потом
mkdir -p /mnt/mds1
mount -t lustre -o loop,user_xattr,acl /tmp/lustre-mdt1 /mnt/mds1
Далее я беру 3 системы и создаю петлю 2 Гб через:
/usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=200000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1
mkdir -p /mnt/ost1
mount -t lustre -o loop /tmp/lustre-ost1 /mnt/ost1
Журналы в окне MDT показывают, что блоки OSS подключаются. Все в порядке.
Наконец, я создаю клиента и присоединяю его к ящику MDT:
mkdir -p /mnt/lustre
mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre
Опять же, журнал в поле MDT показывает клиентское соединение. Кажется успешным.
Вот где (кажется) начинаются проблемы. Если я сделаю «df -h» на клиенте, он зависнет после отображения системных дисков. Если я попытаюсь создать файлы (через 'dd') на монтировке lustre, сеанс зависнет и задание не может быть прервано. Единственное решение - перезагрузка клиента.
Если я делаю «lctl dl» от клиента, он показывает, что обнаружены только 2/3 блока OST и «UP».
[root@lfsclient0 etc]# lctl dl
0 UP mgc MGC10.127.24.42@tcp 282d249f-fcb2-b90f-8c4e-2f1415485410 5
1 UP lov lustre-clilov-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4
2 UP lmv lustre-clilmv-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4
3 UP mdc lustre-MDT0000-mdc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
4 UP osc lustre-OST0000-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
5 UP osc lustre-OST0003-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5
Выполнение 'lfs df' от клиента показывает:
[root@lfsclient0 etc]# lfs df
UUID 1K-blocks Used Available Use% Mounted on
lustre-MDT0000_UUID 149944 16900 123044 12% /mnt/lustre[MDT:0]
OST0000 : inactive device
OST0001 : Resource temporarily unavailable
OST0002 : Resource temporarily unavailable
lustre-OST0003_UUID 187464 24764 152636 14% /mnt/lustre[OST:3]
filesystem summary: 187464 24764 152636 14% /mnt/lustre
Учитывая, что каждый блок OSS имеет крепление на 2 Гб (петля), я ожидал увидеть это отражением в доступном размере.
В поле MDS / MDT нет ошибок, указывающих на то, что несколько блоков OSS / OST были потеряны.
РЕДАКТИРОВАТЬ: каждая система имеет все другие системы, определенные в / etc / hosts, и записи в iptables для обеспечения доступа.
SO: Я явно делаю несколько ошибок. Есть указания, с чего начать их исправление?
Скорее всего, это приведет к проблеме с iptables.
Все блоки в массиве (MGS, OST, клиент) должны иметь неограниченный доступ к порту 988 и любым устройствам LNET.