Назад | Перейти на главную страницу

Lustre - проблемы с простой настройкой

Проблема: я пытаюсь оценить (возможное) использование Lustre для нашей группы. С этой целью я пытался создать простую систему, чтобы изучить нюансы. Кажется, я не могу успешно пройти тест 'llmount.sh'.

Что я сделал: каждая система (одноразовые ПК с 70 ГБ HD, 2 ГБ ОЗУ) отформатирована с помощью CentOS 6.2. Затем я обновляю все и устанавливаю ядро ​​Lustre с downloads.whamcloud.com и добавляю различные (соответствующие) RPM-файлы lustre и e2fs. Системы перезагружаются и тестируются с помощью 'llmount.sh' (а затем очищаются с помощью 'llmountcleanup.sh'). Пока все хорошо.

Сначала я создаю систему MDS / MDT с помощью:

/usr/sbin/mkfs.lustre --mgs --mdt --fsname=lustre --device-size=200000 --param sys.timeout=20 --mountfsoptions=errors=remount-ro,user_xattr,acl --param lov.stripesize=1048576 --param lov.stripecount=0 --param mdt.identity_upcall=/usr/sbin/l_getidentity --backfstype ldiskfs --reformat /tmp/lustre-mdt1

а потом

mkdir -p /mnt/mds1    
mount -t lustre -o loop,user_xattr,acl  /tmp/lustre-mdt1 /mnt/mds1

Далее я беру 3 системы и создаю петлю 2 Гб через:

/usr/sbin/mkfs.lustre --ost --fsname=lustre --device-size=200000 --param sys.timeout=20 --mgsnode=lustre_MDS0@tcp --backfstype ldiskfs --reformat /tmp/lustre-ost1   


mkdir -p /mnt/ost1     
mount -t lustre -o loop  /tmp/lustre-ost1 /mnt/ost1    

Журналы в окне MDT показывают, что блоки OSS подключаются. Все в порядке.

Наконец, я создаю клиента и присоединяю его к ящику MDT:

mkdir -p /mnt/lustre
mount -t lustre -o user_xattr,acl,flock luster_MDS0@tcp:/lustre /mnt/lustre    

Опять же, журнал в поле MDT показывает клиентское соединение. Кажется успешным.

Вот где (кажется) начинаются проблемы. Если я сделаю «df -h» на клиенте, он зависнет после отображения системных дисков. Если я попытаюсь создать файлы (через 'dd') на монтировке lustre, сеанс зависнет и задание не может быть прервано. Единственное решение - перезагрузка клиента.

Если я делаю «lctl dl» от клиента, он показывает, что обнаружены только 2/3 блока OST и «UP».

[root@lfsclient0 etc]# lctl dl   
0 UP mgc MGC10.127.24.42@tcp 282d249f-fcb2-b90f-8c4e-2f1415485410 5   
1 UP lov lustre-clilov-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4   
2 UP lmv lustre-clilmv-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 4   
3 UP mdc lustre-MDT0000-mdc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   
4 UP osc lustre-OST0000-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   
5 UP osc lustre-OST0003-osc-ffff880037e4d400 00fc176e-3156-0490-44e1-da911be9f9df 5   

Выполнение 'lfs df' от клиента показывает:

[root@lfsclient0 etc]# lfs df  
UUID                   1K-blocks        Used   Available Use% Mounted on  
lustre-MDT0000_UUID       149944       16900      123044  12% /mnt/lustre[MDT:0]  
OST0000             : inactive device  
OST0001             : Resource temporarily unavailable  
OST0002             : Resource temporarily unavailable  
lustre-OST0003_UUID       187464       24764      152636  14% /mnt/lustre[OST:3]  

filesystem summary:       187464       24764      152636  14% /mnt/lustre  

Учитывая, что каждый блок OSS имеет крепление на 2 Гб (петля), я ожидал увидеть это отражением в доступном размере.

В поле MDS / MDT нет ошибок, указывающих на то, что несколько блоков OSS / OST были потеряны.

РЕДАКТИРОВАТЬ: каждая система имеет все другие системы, определенные в / etc / hosts, и записи в iptables для обеспечения доступа.

SO: Я явно делаю несколько ошибок. Есть указания, с чего начать их исправление?

Скорее всего, это приведет к проблеме с iptables.

Все блоки в массиве (MGS, OST, клиент) должны иметь неограниченный доступ к порту 988 и любым устройствам LNET.