У меня вопрос, какие хорошие решения (программное / аппаратное обеспечение) были разработаны и применяются на предприятии для онлайн-прогнозирования сбоев? Zabbix, Openstb, Cacti и подобные альтернативы? Не могли бы вы перечислить еще? Можете ли вы описать, какие у них есть преимущества и недостатки, особенно в аспекте прогнозирования отказов?
Я хочу узнать их недостатки и внести улучшения по модели \ алгоритмам. Если вы плохо разбираетесь в концепции онлайн-прогнозирования сбоев, ознакомьтесь со следующим описанием. Если вы это уже знаете, просто пропустите.
Online failure prediction -- It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, undetected errors' symptoms, faults's auditing (actively searching the faults, for example, search inodes' inconsistency in Linux filesystems).
Более подробное введение и соответствующие подходы описаны в документе, https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf
Большое спасибо !
Сравнение систем мониторинга: https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems
Не думаю, что какая-то система мониторинга прогноз отказа из коробки. Предоставленная вами статья слишком академична. Вы все еще можете построить его поверх какой-либо системы мониторинга, которая будет предоставлять данные / события / сбои для прогнозов вашего алгоритма сбоев.
Некоторые системы мониторинга имеют:
прогнозирование метрики (прогноз тренда). Это не предсказание неудачи. В хорошей полуакадемической статье есть Zabbix - Прогноз Zabbix.
обнаружение аномалии - опять же, это не предсказание, это обнаружение. Самый известный OSS для обнаружения аномалий - Горизонт. Системы на основе RRD (Cacti) используют RRD Алгоритм Холта Винтера. Также в графите есть математические функции, который можно использовать для обнаружения аномалий.
Если вы хотите реализовать / улучшить обнаружение сбоев, сделайте его универсальным:
Пожалуйста, сделайте его удобным для пользователя (не академического) и используйте Github. Пингуйте меня, когда вам нужно это протестировать. :-)