Назад | Перейти на главную страницу

GFS не работает, не удается запустить lock_gulmd, указано состояние = Expired

Someting сломался, и я потерял соединение с хранилищем на первом сервере. Второй сервер имел доступ к этой FS. Я попытался перезапустить GFS с помощью службы lock_gulmd, gfs, pool, ccsd stop / start (в разном порядке), но безуспешно. На главном сервере (третьем) »gulm_tool nodelist localhost"

"говорит

Name: srv1
  state = Expired
  mode = Slave
  missed beats = 0
  last beat = 0
  delay avg = 0
  max delay = 0

Я обнаружил, что его нужно огородить? Автоматически или вручную? Кто-нибудь может помочь? На данный момент ни один из хостов ничего не пишет в FS, так что я полагаю, что это не может быть вредно. Второй хост также истек в данный момент и не может запустить lock_gulmd.

Если он еще не был автоматически огорожен, я предполагаю, что ваш механизм ограждения работает не совсем правильно.

Я предполагаю, что можно было бы перезагрузить просроченные хосты (либо один за другим, либо оба одновременно) и сообщить, что ограждение кластера было успешным, с помощью инструмента забор_ак_мануал. Разве это не отображается в ваших журналах?

Запуск этого инструмента (на узле, который запросил его запуск, а не на узле, который необходимо перезагрузить) позволит восстановить файловую систему GFS и неисправный узел. Восстановление в основном состоит из того, что узел снова становится правильным членом кластера и при необходимости воспроизводится журнал файловой системы GFS, iirc.

Честно говоря, лучший способ решить подобные проблемы с GFS, особенно когда вы все равно заблокированы от файловой системы, - это просто выключить все машины, а затем снова запустить кластер. Это был самый надежный и, как правило, самый быстрый способ решения этих проблем, когда я обертывал множество файловых систем GFS.