Сегодня у нас возникла проблема с отключением (NGinx не был успешно перезапущен нашим заданием CRON обновления Let's Encrypt, поэтому не обслуживает обновленный сертификат), что привело к тому, что сервер работает согласно Pingdom, но не обслуживает веб-службу, которой должен был быть. Есть ли способ мониторинга неудачного подключения / обслуживания страницы, а не то, что Pingdom в настоящее время измеряет (ответ сервера?)? Мы также искали в Rollbar мониторинг исключений - может ли какая-либо из этих служб отслеживать / контролировать такого рода проблемы?
Вы можете использовать check_http, который является плагином для Nagios или Icinga. При запуске из cron вы должны добавить что-то вроде | grep -v OK
чтобы получать вывод / почту только тогда, когда это не нормально.
https://www.monitoring-plugins.org/doc/man/check_http.html
Он даже поддерживает проверку оставшихся дней действия сертификата.