Я установил Sun Grid Engine на 10 узлов и один виртуальный главный хост.
Теперь я должен контролировать все ресурсы, прежде чем запускать его в производство, но я не знаю, что лучше. Я пробовал использовать xml-qstat, но он кажется нестабильным.
Есть какие-нибудь советы или предложения?
У кого-нибудь есть опыт в этом?
Спасибо.
Вы могли бы использовать Ганглии. Мы используем Ganglia с тысячами узлов в Голландский вычислительный центр и по большей части, кажется, работает довольно хорошо, особенно если вы ищете исторические графики. Nagios используется для активного мониторинга.
Для протокола, еще Мунин (http://munin-monitoring.org/) это очень мило.
Если я правильно вас понимаю, вам нужно монитор куча грид-серверов. Какой мониторинг вы имеете в виду? Возможно что-то вроде Nagios с некоторыми дополнительными сценариями может соответствовать вашим потребностям?
Есть пример здесь.
Похоже, вас больше интересуют метрики, чем время безотказной работы или доступность. Циркон (http://circonus.com/) здесь хорошо подходит. Вы можете сопоставить практически любые метрики, которые можно импортировать через Resmon XML DTD.