Как отслеживать критические события и автоматически реагировать на них в Solaris

У меня есть сайт, который случайно не работает. Бегает в открытом солярисе на радость.

У меня есть служба мониторинга, которая предупреждает меня, когда сайт не работает, но мне нужен способ установить «инсайдерский» инструмент, который скажет мне, почему это произошло.

Это потому, что процессор слишком высок? Не память? Какой процесс не удался? Можно ли отследить это?

Все работает в Solaris Service Management Facility. Веб-сервер - чероки, база данных - mysql, а язык - python / django.

Я хочу, чтобы была самая простая настройка для отслеживания этого и автоматического ответа, то есть: перезапустить веб-сервер или процесс django в случае сбоя.

Я предпочитаю инструмент с низкими накладными расходами. Мне не нужен навороченный мониторинг, который есть в некоторых инструментах, ни графики, ни смс-оповещения. Знайте только, что не удалось, перезапустите его, если возможно (возможно, до n раз), и сохраните где-нибудь журнал, когда я его проверю.

Все ваши потребности могут быть удовлетворены с помощью журналов в / var / svc / log.

Это журналы всего, что SMF делает с вашей системой за кулисами.

Извлечение «интересных» данных оставлено читателю в качестве упражнения.

Вы также можете реализовать дополнительный мониторинг с помощью Nodefly, NewRelic, Pagerduty, Pingdom или любого из nagios, Munin или zabbix.

У тебя есть много доступных вариантов.

Загляните в collectd. Я получил его для компиляции на illumos / smartos. Также:

https://github.com/gflarity/nervous и https://github.com/gflarity/response