Назад | Перейти на главную страницу

Файловый сервер недоступен для части кластера

Я запускаю кластер Rock 6.2 под управлением Centos 6.8. В основном он состоит из головного узла, вычислительных узлов и файловых серверов. Они подключены через локальный коммутатор 10 Гбит / с, а также все на коммутаторе центра обработки данных 1 Гбит / с (вычислительные узлы находятся только на локальном коммутаторе и используют головной узел в качестве шлюза к коммутатору центра обработки данных). Как вы понимаете, я монтирую свои файловые серверы через локальный коммутатор.

Недавно я добавил новый том на один из моих файловых серверов (cslim), перезагрузил и внес несколько изменений, чтобы права собственности на файлы отображались правильно через NFSv4 (изменения в /etc/idmapd.conf и / etc / default / nfs-common, которые я для всех остальных серверов проделал успешно).

Два экспортированных тома правильно монтируются на головном узле и паре других серверов, которые я пробовал в кластере. Однако я не могу заставить вычислительные узлы монтировать тома через локальный коммутатор. Я просто получаю mount.nfs: Connection timed out. Подключение к вычислительным узлам через коммутатор центра обработки данных действительно работает.

Я не могу точно сказать, монтировался ли сервер ранее на вычислительные узлы, потому что до недавнего времени единственный том там был для архивных и административных файлов, которые я обрабатывал через головной узел.

Кроме того, вычислительные узлы не могут пинговать или использовать ssh для cslim через локальный коммутатор, но головной узел и другие серверы могут делать это через локальный коммутатор. Вычислительные узлы могут отправлять ping и ssh на cslim через коммутатор центра обработки данных и на другие серверы на локальном коммутаторе. Пробуем ssh дает ssh: connect to host cslim-local port 22: No route to host.

Вычислительные узлы правильно разрешают имя локального хоста cslim (cslim-local), и все также не работает с использованием самого IP-адреса.

Время ожидания traceroute от вычислительного узла до cslim истекает, если я правильно его интерпретирую:

[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets 
1 compute-0-0.local (10.1.255.254) 3000.757 ms !H 3000.755 ms !H 3000.752 ms !H 

[root@compute-0-0 ~]# traceroute picsl-local 
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets 
1 picsl-local.local (10.1.1.16) 0.212 ms 0.209 ms 0.204 ms

Я отключил брандмауэр на cslim, но безрезультатно. Я перезагрузил cslim, перезапустил службы nfs и rpcidmapd. cslim экспортирует на вычислительные узлы 10.1.0.0/255.255.0.0:

[root@cslim ~]# exportfs
<snip>
/mnt/data/archive 10.1.0.0/255.255.0.0
/mnt/data-jux     10.1.0.0/255.255.0.0

Нет ничего в / var / log / messages или / var / log / secure на cslim или вычислительных узлах при сбое монтирования.

У кого-нибудь есть идеи?

Обновить:

трассировка истекает время ожидания с сообщением "хост недоступен":

[root@compute-0-0 ~]# traceroute cslim-local
traceroute to cslim-local (10.1.1.11), 30 hops max, 60 byte packets
 1  compute-0-0.local (10.1.255.254)  3000.757 ms !H  3000.755 ms !H  3000.752 ms !H

это показывает, что другой сервер на том же коммутаторе доступен:

[root@compute-0-0 ~]# traceroute picsl-local
traceroute to picsl-local (10.1.1.16), 30 hops max, 60 byte packets
 1  picsl-local.local (10.1.1.16)  0.212 ms  0.209 ms  0.204 ms

SELinux был настроен на принудительное исполнение на cslim. Разрешение не помогло.

Брандмауэр был остановлен на вычислительном узле, и это тоже не помогло.

вывод netstat

На вычислительном узле:

[root@compute-0-0 ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
255.255.255.255 0.0.0.0         255.255.255.255 UH        0 0          0 p1p1
170.212.169.128 10.1.1.1        255.255.255.255 UGH       0 0          0 p1p1
224.0.0.0       0.0.0.0         255.255.255.0   U         0 0          0 p1p1
10.1.0.0        0.0.0.0         255.255.0.0     U         0 0          0 p1p1
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 p1p1
0.0.0.0         10.1.1.1        0.0.0.0         UG        0 0          0 p1p1

Обратите внимание, что 10.1.1.1 - это головной узел.

В cslim:

[root@cslim ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
170.212.169.0   0.0.0.0         255.255.255.0   U         0 0          0 eth0
10.1.1.0        0.0.0.0         255.255.255.0   U         0 0          0 bond0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 bond0
0.0.0.0         170.212.169.2   0.0.0.0         UG        0 0          0 eth0

На picsl (picsl-local показан выше в тесте traceroute. Этот сервер может монтировать тома cslim через локальный коммутатор):

[root@picsl-cluster ~]# netstat -rn
Kernel IP routing table
Destination     Gateway         Genmask         Flags   MSS Window  irtt Iface
170.212.169.225 10.1.1.1        255.255.255.255 UGH       0 0          0 eth0
170.212.169.0   0.0.0.0         255.255.255.0   U         0 0          0 em1
192.168.122.0   0.0.0.0         255.255.255.0   U         0 0          0 virbr0
10.1.0.0        0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 eth0
169.254.0.0     0.0.0.0         255.255.0.0     U         0 0          0 em1
0.0.0.0         170.212.169.2   0.0.0.0         UG        0 0          0 em1

ifconfig

На вычислительном узле:

[root@compute-0-0 ~]# ifconfig -a
em1       Link encap:Ethernet  HWaddr 90:B1:1C:28:D8:27  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:16 

em2       Link encap:Ethernet  HWaddr 90:B1:1C:28:D8:28  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:17 

lo        Link encap:Local Loopback  
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:360953790 errors:0 dropped:0 overruns:0 frame:0
          TX packets:360953790 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:1108715304547 (1.0 TiB)  TX bytes:1108715304547 (1.0 TiB)

p1p1      Link encap:Ethernet  HWaddr 00:10:18:F0:31:A0  
          inet addr:10.1.255.254  Bcast:10.1.255.255  Mask:255.255.0.0
          inet6 addr: fe80::210:18ff:fef0:31a0/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1654711736 errors:0 dropped:0 overruns:0 frame:0
          TX packets:2560600760 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:2054533957261 (1.8 TiB)  TX bytes:3252638973302 (2.9 TiB)
          Interrupt:80 Memory:d0000000-d07fffff 

p1p2      Link encap:Ethernet  HWaddr 00:10:18:F0:31:A2  
          BROADCAST MULTICAST  MTU:1500  Metric:1
          RX packets:0 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:0 (0.0 b)  TX bytes:0 (0.0 b)
          Interrupt:84 Memory:d1000000-d17fffff 

В cslim:

[root@cslim ~]# ifconfig -a
bond0     Link encap:Ethernet  HWaddr 00:21:28:3D:6D:03  
          inet addr:10.1.1.11  Bcast:10.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING MASTER MULTICAST  MTU:1500  Metric:1
          RX packets:351143643 errors:0 dropped:0 overruns:0 frame:0
          TX packets:22812517 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:495999344326 (461.9 GiB)  TX bytes:1721189388 (1.6 GiB)

eth0      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:02  
          inet addr:170.212.169.151  Bcast:170.212.169.255  Mask:255.255.255.0
          inet6 addr: fe80::221:28ff:fe3d:6d02/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:22690383 errors:1152 dropped:0 overruns:1150 frame:2
          TX packets:2716530 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:33135278971 (30.8 GiB)  TX bytes:227883477 (217.3 MiB)

eth1      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:03  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:2766456 errors:0 dropped:0 overruns:0 frame:0
          TX packets:22803974 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:380681543 (363.0 MiB)  TX bytes:1720423086 (1.6 GiB)

eth2      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:04  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:345621248 errors:444 dropped:0 overruns:444 frame:0
          TX packets:8492 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:495244880097 (461.2 GiB)  TX bytes:757968 (740.2 KiB)

eth3      Link encap:Ethernet  HWaddr 00:21:28:3D:6D:05  
          inet6 addr: fe80::221:28ff:fe3d:6d03/64 Scope:Link
          UP BROADCAST RUNNING SLAVE MULTICAST  MTU:1500  Metric:1
          RX packets:2755939 errors:444 dropped:0 overruns:444 frame:0
          TX packets:51 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:373782686 (356.4 MiB)  TX bytes:8334 (8.1 KiB)

lo        Link encap:Local Loopback  
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:3512 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3512 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:0 
          RX bytes:517649 (505.5 KiB)  TX bytes:517649 (505.5 KiB)

Я думаю, что проблема в сетевой маске на интерфейсе файлового сервера 10.x. Вот мое понимание текущей настройки ...

|   machine   |      IP      |    netmask    | cidr |
|-------------|--------------|---------------|------|
| compute-0-0 | 10.1.255.254 |   255.255.0.0 | /16  |
| picsl       |    10.1.1.16 |   255.255.0.0 | /16  |
| cslim       |    10.1.1.11 | 255.255.255.0 | /24  |

Это означает, что и compute-0-0, и picsl думают, что могут напрямую подключиться к cslim, но cslim может напрямую подключаться только к picsl, и для достижения compute-0-0 необходимо пройти через шлюз. Вероятно, это не то, что вы ожидаете, и не будет работать.

Основываясь на информации, которую я видел до сих пор, исправление заключается в изменении сетевой маски для интерфейса 10.x файлового сервера (bond0) на 255.255.0.0. Однако могут быть причины для текущей настройки, поэтому свяжитесь с командой локальной сети, если она у вас есть.