Фон, как всегда, в первую очередь. Я администрирую две системы HPC. Оба работают под одной и той же ОС, в случае CentOS 7. Они оба монтируют общий ресурс NFS, который предоставляется сервером, на котором есть ряд других общих ресурсов, под управлением Debian 8. До недавнего времени общий ресурс использовал PosixACL, и оба клиента были показывая им, как они должны.
Недавно я переместил данные для общего ресурса NFS, используемого HPC, на новый сервер хранения. И старый, и новый серверы используют ZFS и находятся в одной сети 10G, поэтому я переместил данные с помощью отправки / получения ZFS. Новый сервер работает под управлением Debian 9 и имеет ту же загрузку программного обеспечения, не считая, конечно, номеров версий, что и старый. Записи файла / etc / export для общего ресурса NFS были скопированы с единственным изменением, внесенным в имя каталога, поскольку у пула ZFS было другое имя. Новый сервер также имеет соединения для сетей Infiniband HPC, и это то, что я использовал для подключения к общим ресурсам NFS от каждой из них.
После того, как все было настроено на новом сервере, я отключил общий ресурс на каждом HPC, изменил записи fstab, чтобы они указывали на него через сети Infiniband, и смонтировал его заново. Казалось, это сработало без проблем. Так было до тех пор, пока пользователи не попытались вернуться к работе.
В конце концов я обнаружил, что списки ACL, которые раньше отображались в HPC, уже не все. Нет, это не опечатка. Не все списки ACL, отображаемые с помощью знака + на сервере хранения, отображаются в HPC. Вот два примера с измененными именами пользователей, групп и каталогов.
Сначала сервер хранения.
drwxrwxrwx+ 2 user1 group1 22 Aug 23 2018 directory
drwxr-xr-x+ 8 user2 group2 9 Apr 25 2019 user2-directory
drwxrwxr-x+ 13 user3 group3 21 Jan 17 14:08 user3-directory
drwxrwx---+ 11 user4 group3 11 Feb 14 12:49 shared-directory
drwxrwxr-x 6 user5 group4 10 Mar 4 08:40 user5-directory
drwxr-xr-x 8 user6 group3 8 Jul 16 2019 share2-directory
Далее те же 6 каталогов, что и на HPC.
drwxrwxrwx+ 2 user1 group1 22 Aug 23 2018 directory
drwxr-xr-x 8 user2 group2 9 Apr 25 2019 user2-directory
drwxrwxr-x 13 user3 group3 21 Jan 17 19:08 user3-directory
drwxrwx--- 11 user4 group3 11 Feb 14 17:49 shared-directory
drwxrwxr-x 6 user5 group4 10 Mar 4 13:40 user5-directory
drwxr-xr-x 8 user6 group3 8 Jul 16 2019 share2-directory
Я также заметил разницу во времени для них, и мне интересно, является ли это частью проблемы. Действительно странно то, что когда я запускаю getfacl на HPC, в каталогах, которые должны иметь ACL, я получаю тот же результат, что и на сервере хранения. Тем не менее, все мои пользователи сообщают, что у них все еще нет доступа, который они должны, в соответствии с ACL.
В качестве последнего примечания здесь приведены записи / etc / exports для общего ресурса и / etc / fstab для одного из HPC, все имена и IP-адреса, конечно, изменены.
/zfspool/zfsfilesystem 192.168.4.0/22(rw,crossmnt,nohide,async,no_root_squash,no_subtree_check) 192.168.8.0/22(rw,crossmnt,nohide,async,no_root_squash,no_subtree_check)
Запись fstab.
192.168.4.108:/zfspool/zfsfilesystem /mnt/zfsfilesystem nfs defaults 0 0
Я попытался заставить NFSv3, добавив vers = 3 в fstab. Никаких изменений замечено не было. Я также могу убедиться, что установка через Ethernet вместо Infiniband не имеет значения.
Поскольку это такая странная проблема, я надеялся, что кто-то может помочь.