У нас есть кластер Isilon с 8 узлами IQ 12000x, который экспортирует хранилище через несколько общих ресурсов NFS для нескольких клиентов Linux и Solaris.
В системе Linux смонтирована одна из этих файловых систем NFS. Операции ввода-вывода в эту файловую систему в системе Linux умеренно интенсивны. Каждые 3-4 недели (это незаметный график, а иногда более / менее частый, чем этот) мы замечаем, что вся активность прекращается на этом монтировании NFS (процесс зависает, как будто сеть перестала работать, поэтому процесс застрял в бесперебойном сне) - через 30 минут акция восстанавливается и все продолжает нормально работать. Журнал ядра затронутой машины выглядит следующим образом:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
Соответствующий /etc/fstab
линия:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
Я проверил, есть ли запланированные процессы, например. cron, функции, связанные с Isilon, например снимки и т. д., которые могут вызывать эти зависания, но я ничего не могу найти. Мне также неизвестны какие-либо проблемы с сетью или обслуживание, которые могли бы вызвать это. Согласно журналам ядра все блокировки длятся почти ровно 30 минут.
Возможно, у кого-то есть предложения, которые я мог бы попробовать? (Я подумал о мягком монтировании, чтобы избежать проблем, связанных с зависанием процессов, обращающихся к файловой системе; однако я опасаюсь возможного повреждения, и это в любом случае не решит основную проблему).
Убедитесь, что значения MTU верны на всем протяжении вашей топологии проводки. Если ваш клиент уровня доступа установлен на 9000, и он проходит через коммутатор. Убедитесь, что коммутатор может работать с MTU большего размера.