Я запускаю кластер Rock 6.2 под управлением Centos 6.8. В основном он состоит из головного узла, вычислительных узлов и файловых серверов. Они подключены через локальный коммутатор 10 Гбит / с, а также все на коммутаторе центра обработки данных 1 Гбит / с (вычислительные узлы находятся только на локальном коммутаторе и используют головной узел в качестве шлюза к коммутатору центра обработки данных). Как вы понимаете, я монтирую свои файловые серверы через локальный коммутатор.
Недавно я добавил новый том на один из моих файловых серверов (cslim), перезагрузил и внес несколько изменений, чтобы права собственности на файлы отображались правильно через NFSv4 (изменения в /etc/idmapd.conf и / etc / default / nfs-common, которые я для всех остальных серверов проделал успешно).
Два экспортированных тома правильно монтируются на головном узле и паре других серверов, которые я пробовал в кластере. Однако я не могу заставить вычислительные узлы монтировать тома через локальный коммутатор. Я просто получаю mount.nfs: Connection timed out
. Подключение к вычислительным узлам через коммутатор центра обработки данных действительно работает.
Я не могу точно сказать, монтировался ли сервер ранее на вычислительные узлы, потому что до недавнего времени единственный том там был для архивных и административных файлов, которые я обрабатывал через головной узел.
Кроме того, вычислительные узлы не могут пинговать или использовать ssh для cslim через локальный коммутатор, но головной узел и другие серверы могут делать это через локальный коммутатор. Вычислительные узлы могут отправлять ping и ssh на cslim через коммутатор центра обработки данных и на другие серверы на локальном коммутаторе. Пробуем ssh дает ssh: connect to host cslim-local port 22: No route to host
.
Вычислительные узлы правильно разрешают имя локального хоста cslim (cslim-local), и все также не работает с использованием самого IP-адреса.
Время ожидания traceroute от вычислительного узла до cslim истекает, если я правильно его интерпретирую:
[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H
[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms
Я отключил брандмауэр на cslim, но безрезультатно. Я перезагрузил cslim, перезапустил службы nfs и rpcidmapd. cslim экспортирует на вычислительные узлы 10.1.0.0/255.255.0.0:
[root@cslim ~]# exportfs
<snip>
/mnt/data/archive 10.1.0.0/255.255.0.0
/mnt/data-jux 10.1.0.0/255.255.0.0
Нет ничего в / var / log / messages или / var / log / secure на cslim или вычислительных узлах при сбое монтирования.
У кого-нибудь есть идеи?
Обновить:
трассировка истекает время ожидания с сообщением "хост недоступен":
[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H
это показывает, что другой сервер на том же коммутаторе доступен:
[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms
SELinux был настроен на принудительное исполнение на cslim. Разрешение не помогло.
Брандмауэр был остановлен на вычислительном узле, и это тоже не помогло.
вывод netstat
На вычислительном узле:
[root@compute-0-0 ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
255.255.255.255 0.0.0.0 255.255.255.255 UH 0 0 0 p1p1
170.212.169.128 10.1.1.1 255.255.255.255 UGH 0 0 0 p1p1
224.0.0.0 0.0.0.0 255.255.255.0 U 0 0 0 p1p1
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 p1p1
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 p1p1
0.0.0.0 10.1.1.1 0.0.0.0 UG 0 0 0 p1p1
Обратите внимание, что 10.1.1.1 - это головной узел.
В cslim:
[root@cslim ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
170.212.169.0 0.0.0.0 255.255.255.0 U 0 0 0 eth0
10.1.1.0 0.0.0.0 255.255.255.0 U 0 0 0 bond0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 bond0
0.0.0.0 170.212.169.2 0.0.0.0 UG 0 0 0 eth0
На picsl (picsl-local показан выше в тесте traceroute. Этот сервер может монтировать тома cslim через локальный коммутатор):
[root@picsl-cluster ~]# netstat -rn
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
170.212.169.225 10.1.1.1 255.255.255.255 UGH 0 0 0 eth0
170.212.169.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
192.168.122.0 0.0.0.0 255.255.255.0 U 0 0 0 virbr0
10.1.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 eth0
169.254.0.0 0.0.0.0 255.255.0.0 U 0 0 0 em1
0.0.0.0 170.212.169.2 0.0.0.0 UG 0 0 0 em1
ifconfig
На вычислительном узле:
[root@compute-0-0 ~]# ifconfig -a
em1 Link encap:Ethernet HWaddr 90:B1:1C:28:D8:27
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:16
em2 Link encap:Ethernet HWaddr 90:B1:1C:28:D8:28
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:17
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:360953790 errors:0 dropped:0 overruns:0 frame:0
TX packets:360953790 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:1108715304547 (1.0 TiB) TX bytes:1108715304547 (1.0 TiB)
p1p1 Link encap:Ethernet HWaddr 00:10:18:F0:31:A0
inet addr:10.1.255.254 Bcast:10.1.255.255 Mask:255.255.0.0
inet6 addr: fe80::210:18ff:fef0:31a0/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:1654711736 errors:0 dropped:0 overruns:0 frame:0
TX packets:2560600760 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:2054533957261 (1.8 TiB) TX bytes:3252638973302 (2.9 TiB)
Interrupt:80 Memory:d0000000-d07fffff
p1p2 Link encap:Ethernet HWaddr 00:10:18:F0:31:A2
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)
Interrupt:84 Memory:d1000000-d17fffff
В cslim:
[root@cslim ~]# ifconfig -a
bond0 Link encap:Ethernet HWaddr 00:21:28:3D:6D:03
inet addr:10.1.1.11 Bcast:10.1.1.255 Mask:255.255.255.0
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING MASTER MULTICAST MTU:1500 Metric:1
RX packets:351143643 errors:0 dropped:0 overruns:0 frame:0
TX packets:22812517 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:495999344326 (461.9 GiB) TX bytes:1721189388 (1.6 GiB)
eth0 Link encap:Ethernet HWaddr 00:21:28:3D:6D:02
inet addr:170.212.169.151 Bcast:170.212.169.255 Mask:255.255.255.0
inet6 addr: fe80::221:28ff:fe3d:6d02/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:22690383 errors:1152 dropped:0 overruns:1150 frame:2
TX packets:2716530 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:33135278971 (30.8 GiB) TX bytes:227883477 (217.3 MiB)
eth1 Link encap:Ethernet HWaddr 00:21:28:3D:6D:03
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:2766456 errors:0 dropped:0 overruns:0 frame:0
TX packets:22803974 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:380681543 (363.0 MiB) TX bytes:1720423086 (1.6 GiB)
eth2 Link encap:Ethernet HWaddr 00:21:28:3D:6D:04
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:345621248 errors:444 dropped:0 overruns:444 frame:0
TX packets:8492 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:495244880097 (461.2 GiB) TX bytes:757968 (740.2 KiB)
eth3 Link encap:Ethernet HWaddr 00:21:28:3D:6D:05
inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
UP BROADCAST RUNNING SLAVE MULTICAST MTU:1500 Metric:1
RX packets:2755939 errors:444 dropped:0 overruns:444 frame:0
TX packets:51 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:373782686 (356.4 MiB) TX bytes:8334 (8.1 KiB)
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:3512 errors:0 dropped:0 overruns:0 frame:0
TX packets:3512 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:517649 (505.5 KiB) TX bytes:517649 (505.5 KiB)
Я думаю, что проблема в сетевой маске на интерфейсе файлового сервера 10.x. Вот мое понимание текущей настройки ...
| machine | IP | netmask | cidr |
|-------------|--------------|---------------|------|
| compute-0-0 | 10.1.255.254 | 255.255.0.0 | /16 |
| picsl | 10.1.1.16 | 255.255.0.0 | /16 |
| cslim | 10.1.1.11 | 255.255.255.0 | /24 |
Это означает, что и compute-0-0, и picsl думают, что могут напрямую подключиться к cslim, но cslim может напрямую подключаться только к picsl, и для достижения compute-0-0 необходимо пройти через шлюз. Вероятно, это не то, что вы ожидаете, и не будет работать.
Основываясь на информации, которую я видел до сих пор, исправление заключается в изменении сетевой маски для интерфейса 10.x файлового сервера (bond0) на 255.255.0.0. Однако могут быть причины для текущей настройки, поэтому свяжитесь с командой локальной сети, если она у вас есть.