Я работаю с Pacemaker и Stonith для обеспечения высокой доступности с 2-узловым кластером (узлы здесь называются A и B). Оба узла имеют один IPMI в качестве устройства ограждения.
Сделка заключается в следующем:
Затем я отключаю питание узла A. Таким образом, все интерфейсы eth И IPMI на A недоступны. Вот и весь трюк: B безуспешно пытается вывести A из строя, потому что IPMI A недоступен. Когда выполнено N попыток, B сдается и переходит в состояние «Блокировка» (в файле журнала это называется IDLE).
Вот мой вопрос: как я могу заставить B вернуть ресурсы, даже если Stonith A выйдет из строя?
Я понимаю последствия (одновременная запись и т. Д.), Но мне они больше нравятся по сравнению с тем, что служба вообще недоступна.
У вас уже есть описанная проблема:
B безуспешно пытается вывести A из строя, потому что IPMI A недоступен.
Если B не сможет успешно завершить операцию ограждения, он будет зависать, чтобы избежать сценария разделения мозга. Вы можете смягчить это, настроив вторичный механизм ограждения.