У меня есть простая установка двухузлового кластера, которая последние пару недель работает нормально. Я не вносил никаких изменений в свои узлы, но несколько дней назад метрики данных перестали отображаться. Судя по всему, все остальное работает нормально, и OpsCenter может видеть, работают ли мои узлы или нет, без каких-либо проблем. Также в графическом интерфейсе нет сообщений об ошибках.
Я видел пару других сообщений, хотя решения не связаны с моим сценарием. У меня нет большой нагрузки на сервер. У меня меньше 10 семейств столбцов, поскольку они предназначены только для тестирования, и пароль Thift не настроен.
Когда я смотрю в журнал opscenterd.log, я вижу следующее:
2015-06-09 00:16:40+0000 [] ERROR: Error fetching metric data: Traceback (most recent call last):
File "/usr/lib/python2.7/dist-packages/opscenterd/MetricFetcher.py", line 470, in _fetch_through_cache
UnavailableException: UnavailableException()
2015-06-09 00:16:40+0000 [] ERROR: Problem while calling NewMetricsController (IndexError): list index out of range
File "/usr/share/opscenter/lib/py-debian/2.7/amd64/twisted/internet/defer.py", line 1020, in _inlineCallbacks
result = g.send(result)
File "/usr/lib/python2.7/dist-packages/opscenterd/MetricFetcher.py", line 612, in fetchMetrics
А в agent.log я вижу это:
ERROR [os-metrics-5] 2015-06-09 17:47:41,161 Long os-stats collector failed: Cannot run program "iostat": error=2, No such file or directory
ERROR [os-metrics-4] 2015-06-09 17:47:41,162 Long os-stats collector failed: Cannot run program "iostat": error=2, No such file or directory
Есть идеи, как это решить?