Назад | Перейти на главную страницу

Мониторинг безотказной работы сервера с помощью Telegraf / Grafana в Windows

Я знаю, что существует бесчисленное множество решений для мониторинга времени безотказной работы на серверах Windows, но я хочу специально спросить об агенте сервера Influx, telegraf.

В настоящее время у нас есть хороший стек infxdb / grafana / telegraf, который отслеживает наши Linux-машины для основных системных показателей, таких как процессор, память, диск, время безотказной работы и т. Д., И недавно я также начал включать некоторые из наших окон Windows в эту настройку.

Это достаточно просто, и простое включение подключаемых модулей ввода в telegraf.conf и обновление счетчиков для файла ваших потребностей работает, как и следовало ожидать. Я могу запросить данные в infxdb из пользовательского интерфейса Grafana.

У меня возникли проблемы с плагином ввода "system". На машинах linux этот плагин предоставляет метрики, которые по сути такие же, как результат команды unix 'uptime' - время безотказной работы, нет. пользователей, средней нагрузки и т. д. Затем мы можем получить красивую цветовую диаграмму «singlestat» безотказной работы в пользовательском интерфейсе grafana для наших отдельных машин Linux. т. е. окрашен в зеленый цвет, если машина работает более секунды, в красный цвет, если нет ...

Может ли кто-нибудь предложить, могу ли я сделать что-то подобное для измерения и отображения времени безотказной работы окон с использованием агента телеграфа и пользовательского интерфейса графаны?

Я могу выложить telegraf.conf по запросу.

Спасибо, Сэм

Вы можете использовать объект Windows «Система» со счетчиком «Время работы системы» для времени работы сервера в секундах. Например, добавьте это в ваш отслеживаемый хост Windows telegraf.conf:

[[inputs.win_perf_counters]]
...
    #####  System  #####
    [[inputs.win_perf_counters.object]]
        ObjectName = "System"
        Counters = ["System Up Time"]
        Instances = ["------"]
        Measurement = "win_system"
        #IncludeTotal=false #Set to true to include _Total instance when querying for all (*).

Видеть плагин win_perf_counters

У меня возникла проблема с этим ответом в моей "обучающей" конфигурации. Мне пришлось изменить

Instances = ["------"]  

к этому:

Instances = ["*"]  

С тех пор я изменил это сейчас на следующее:

[[inputs.win_perf_counters.object]]  
  ObjectName = "System"  
  Counters = [  
    "Context Switches/sec",  
    "System Calls/sec",  
    "Processor Queue Length",  
    "Threads",  
    "System Up Time",  
    "Processes"  
  ]  
  Instances = ["------"]  
  Measurement = "win_system"  
  # Set to true to include _Total instance when querying for all (*).  
  #IncludeTotal=false