Лучший способ контролировать сеть компьютеров?

Я установил Sun Grid Engine на 10 узлов и один виртуальный главный хост.

Теперь я должен контролировать все ресурсы, прежде чем запускать его в производство, но я не знаю, что лучше. Я пробовал использовать xml-qstat, но он кажется нестабильным.

Есть какие-нибудь советы или предложения?

У кого-нибудь есть опыт в этом?

Спасибо.

Вы могли бы использовать Ганглии. Мы используем Ganglia с тысячами узлов в Голландский вычислительный центр и по большей части, кажется, работает довольно хорошо, особенно если вы ищете исторические графики. Nagios используется для активного мониторинга.

Для протокола, еще Мунин (http://munin-monitoring.org/) это очень мило.

Если я правильно вас понимаю, вам нужно монитор куча грид-серверов. Какой мониторинг вы имеете в виду? Возможно что-то вроде Nagios с некоторыми дополнительными сценариями может соответствовать вашим потребностям?

Есть пример здесь.

Похоже, вас больше интересуют метрики, чем время безотказной работы или доступность. Циркон (http://circonus.com/) здесь хорошо подходит. Вы можете сопоставить практически любые метрики, которые можно импортировать через Resmon XML DTD.