Someting сломался, и я потерял соединение с хранилищем на первом сервере. Второй сервер имел доступ к этой FS. Я попытался перезапустить GFS с помощью службы lock_gulmd, gfs, pool, ccsd stop / start (в разном порядке), но безуспешно. На главном сервере (третьем) »gulm_tool nodelist localhost"
"говорит
Name: srv1
state = Expired
mode = Slave
missed beats = 0
last beat = 0
delay avg = 0
max delay = 0
Я обнаружил, что его нужно огородить? Автоматически или вручную? Кто-нибудь может помочь? На данный момент ни один из хостов ничего не пишет в FS, так что я полагаю, что это не может быть вредно. Второй хост также истек в данный момент и не может запустить lock_gulmd.
Если он еще не был автоматически огорожен, я предполагаю, что ваш механизм ограждения работает не совсем правильно.
Я предполагаю, что можно было бы перезагрузить просроченные хосты (либо один за другим, либо оба одновременно) и сообщить, что ограждение кластера было успешным, с помощью инструмента забор_ак_мануал. Разве это не отображается в ваших журналах?
Запуск этого инструмента (на узле, который запросил его запуск, а не на узле, который необходимо перезагрузить) позволит восстановить файловую систему GFS и неисправный узел. Восстановление в основном состоит из того, что узел снова становится правильным членом кластера и при необходимости воспроизводится журнал файловой системы GFS, iirc.
Честно говоря, лучший способ решить подобные проблемы с GFS, особенно когда вы все равно заблокированы от файловой системы, - это просто выключить все машины, а затем снова запустить кластер. Это был самый надежный и, как правило, самый быстрый способ решения этих проблем, когда я обертывал множество файловых систем GFS.