Назад | Перейти на главную страницу

Недостатки системы мониторинга текущего состояния и прогнозирования отказов

У меня вопрос, какие хорошие решения (программное / аппаратное обеспечение) были разработаны и применяются на предприятии для онлайн-прогнозирования сбоев? Zabbix, Openstb, Cacti и подобные альтернативы? Не могли бы вы перечислить еще? Можете ли вы описать, какие у них есть преимущества и недостатки, особенно в аспекте прогнозирования отказов?

Я хочу узнать их недостатки и внести улучшения по модели \ алгоритмам. Если вы плохо разбираетесь в концепции онлайн-прогнозирования сбоев, ознакомьтесь со следующим описанием. Если вы это уже знаете, просто пропустите.

Online failure prediction -- It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, undetected errors' symptoms, faults's auditing (actively searching the faults, for example, search inodes' inconsistency in Linux filesystems).

Более подробное введение и соответствующие подходы описаны в документе, https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf

Большое спасибо !

Сравнение систем мониторинга: https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems

Не думаю, что какая-то система мониторинга прогноз отказа из коробки. Предоставленная вами статья слишком академична. Вы все еще можете построить его поверх какой-либо системы мониторинга, которая будет предоставлять данные / события / сбои для прогнозов вашего алгоритма сбоев.

Некоторые системы мониторинга имеют:

прогнозирование метрики (прогноз тренда). Это не предсказание неудачи. В хорошей полуакадемической статье есть Zabbix - Прогноз Zabbix.
обнаружение аномалии - опять же, это не предсказание, это обнаружение. Самый известный OSS для обнаружения аномалий - Горизонт. Системы на основе RRD (Cacti) используют RRD Алгоритм Холта Винтера. Также в графите есть математические функции, который можно использовать для обнаружения аномалий.

Если вы хотите реализовать / улучшить обнаружение сбоев, сделайте его универсальным:

уровень ввода - некоторая концепция плагина, поэтому пользователь должен иметь возможность использовать / писать собственный плагин, который будет извлекать данные из конкретной системы мониторинга плагина
слой обнаружения отказов - алгоритмов много, поэтому каждый из них должен быть настраиваемым
выходной уровень - аналогичен входному уровню, поэтому событие о прогнозируемом отказе может вернуться в систему мониторинга или в какую-либо другую систему оповещения

Пожалуйста, сделайте его удобным для пользователя (не академического) и используйте Github. Пингуйте меня, когда вам нужно это протестировать. :-)