Мне интересно, какое программное обеспечение используют специалисты веб-масштабирования для мониторинга своих n массивов серверов в ферме (ах) серверов.
Что используют facebook, twitter, digg? Как это делает гугл?
Я ищу решение для наших собственных требований к мониторингу. Наши серверы находятся в облаке, AppEngine и EC2. Мы стремимся отслеживать «приложение» (которое построено из множества небольших сервисов), что означает, что конечным результатом должна быть система, которая может отслеживать как время отклика (+ alivenss и т. Д.), Так и валидность приложения: если я делаю X, то Y должно произойти, затем через 2 часа убедитесь, что Z был обработан и T был добавлен в правильный журнал ...
Идеальным решением была бы система, в которой я могу развертывать модульные тесты, те же модульные тесты, которые я использую для тестирования программного обеспечения во время разработки.
Рекомендации, указатели, комментарии очень приветствуются - я ищу пути решения этой проблемы.
Спасибо, Максим.
я наблюдал этот некоторое время назад. Это «День из жизни Facebook». Они используют cfengine2 (развертывание), nagios (мониторинг), ganglia (мониторинг и отслеживание тенденций), а также множество собственных инструментов. Забавно видеть, что некоторые из используемых нами инструментов используются в таком массовом масштабе (+60 000 серверов)