Я создал активный / пассивный кластер с помощью Pacemaker / Corosync / drbd и "смоделировал" сбой Apache. pkill httpd
и хотя кардиостимулятор восстановился после "сбоя" и запустил httpd сейчас при выполнении pcs status
Я получил:
Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
last-rc-change='Wed May 9 09:55:45 2018', queued=0ms, exec=0ms
Почему кардиостимулятор не устраняет неудачное действие после успешного восстановления? Или есть другой способ очистить неудачное действие, кроме ручного?
Заранее спасибо!
Так задумано. Некоторым администраторам, в том числе и мне, нравится видеть ошибку, чтобы мы знали, когда она произошла, и могли изучить ее. Кроме того, кардиостимулятор должен отслеживать эти ошибки, чтобы решить, с чего лучше всего запустить ресурс.
Тем не менее, у Pacemaker есть метод устранения сбоев по истечении заданного времени, если новых сбоев не произошло. Это известно как тайм-аут отказа. Это можно настроить для каждого ресурса, но ниже вы можете указать его как ресурс по умолчанию для всего кластера с оболочкой crm. Я ожидал, что у ПК также будет метод для его определения.
crm configure rsc_defaults failure-timeout=15m
Обратите внимание, что это проверяется только в течение интервала повторной проверки кластера, который по умолчанию составляет каждые 15 минут. При установленном тайм-ауте отказа 15 минут, в зависимости от того, когда именно произошел сбой, для его устранения может потребоваться 29 минут 59 секунд.