Назад | Перейти на главную страницу

Совместная файловая система NFS блокируется

Наша общая файловая система с NFS блокируется.

Пожалуйста, не стесняйтесь задавать любые вопросы, которые кажутся вам важными. :)

В то время многие процессы находятся в состоянии «сна диска», и средняя нагрузка на наши машины стремительно растет. Машины реагируют на SSH, но большинство наших веб-сайтов (apache + mod_php) просто зависают, как и наша система электронной почты (exim + dovecot). Любые веб-сайты, которым не требуется доступ для записи в файловую систему, продолжают работать.

Средние значения нагрузки продолжают расти, пока не будет достигнут какой-то тайм-аут, но не менее 10-15 минут. Я видел среднюю нагрузку более 800, но машины по-прежнему реагируют на действия, которые не требуют записи в общую файловую систему.

Я исследовал множество вариантов, и все они оказались отвлекающими: nagios, proftpd, bind, cron tasks.

Я вижу эти сообщения в системном журнале файлового сервера:

Jul 30 09:37:17 fs0 kernel: [1810036.560046] statd: server localhost not responding, timed out
Jul 30 09:37:17 fs0 kernel: [1810036.560053] nsm_mon_unmon: rpc failed, status=-5
Jul 30 09:37:17 fs0 kernel: [1810036.560064] lockd: cannot monitor node2
Jul 30 09:38:22 fs0 kernel: [1810101.384027] statd: server localhost not responding, timed out
Jul 30 09:38:22 fs0 kernel: [1810101.384033] nsm_mon_unmon: rpc failed, status=-5
Jul 30 09:38:22 fs0 kernel: [1810101.384044] lockd: cannot monitor node0

Используемое программное обеспечение:

VMWare, Debian lenny (64-битная), древняя Red Hat (32-битная) (я считаю, версия 7), Debian etch (32-битная)

NFS, apache2 + mod_php, exim, dovecot, bind, amanda, proftpd, nagios, cacti, drbd, heartbeat, keepalived, LVS, cron, ssmtp, NIS, svn, puppet, memcache, mysql, postgres

Joomla !, Magento, Typo3, Midgard, Symfony, пользовательские приложения php

В этом случае попробуйте перемонтировать раздел nfs. Экспортируется с синхронизацией или без?