Назад | Перейти на главную страницу

кардиостимулятор автоматически отменяет неудачные действия

Я создал активный / пассивный кластер с помощью Pacemaker / Corosync / drbd и "смоделировал" сбой Apache. pkill httpd и хотя кардиостимулятор восстановился после "сбоя" и запустил httpd сейчас при выполнении pcs status Я получил:

Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
    last-rc-change='Wed May  9 09:55:45 2018', queued=0ms, exec=0ms

Почему кардиостимулятор не устраняет неудачное действие после успешного восстановления? Или есть другой способ очистить неудачное действие, кроме ручного?

Заранее спасибо!

Так задумано. Некоторым администраторам, в том числе и мне, нравится видеть ошибку, чтобы мы знали, когда она произошла, и могли изучить ее. Кроме того, кардиостимулятор должен отслеживать эти ошибки, чтобы решить, с чего лучше всего запустить ресурс.

Тем не менее, у Pacemaker есть метод устранения сбоев по истечении заданного времени, если новых сбоев не произошло. Это известно как тайм-аут отказа. Это можно настроить для каждого ресурса, но ниже вы можете указать его как ресурс по умолчанию для всего кластера с оболочкой crm. Я ожидал, что у ПК также будет метод для его определения.

crm configure rsc_defaults failure-timeout=15m

Обратите внимание, что это проверяется только в течение интервала повторной проверки кластера, который по умолчанию составляет каждые 15 минут. При установленном тайм-ауте отказа 15 минут, в зависимости от того, когда именно произошел сбой, для его устранения может потребоваться 29 минут 59 секунд.