Я хотел бы понять, насколько «эффективно» мое развертывание / работа потребляет запрашиваемые ими ресурсы. то есть, если задание, которое заканчивается использованием только 1 ЦП на пике, запрашивает 320, я хотел бы иметь панель мониторинга / предупреждение / метрику для поиска мошеннических модулей, отвечающих этим критериям.
Такое существует? Ближайшее, что я нашел, - это grafana + promql, но в идеале подойдет готовая панель инструментов или другое решение.
Я запускаю это в локальном кластере кубернетов.
Так что есть много возможных подходов к этому делу. Графана будет одним из них.
Прежде всего, вы можете использовать запросы ресурсов и / или ограничения. Обычно запросы - это зарезервированный объем памяти или ЦП для контейнеров в модуле. Очевидно, что ограничения ограничивают количество ресурсов, которые можно использовать. Подробнее об этом Вот. Вы также можете использовать квоты ресурсов для ограничения использования ресурсов для каждого пространства имен. Вы можете найти дополнительную информацию Вот.
Это будет для управления ресурсами, что также важно - если вы хотите пойти дальше, есть также автомасштабирование кластеров.
Строго для мониторинга вы также можете использовать различные инструменты, как вы уже упоминали, есть Grafana, но также вы можете использовать стек EFK. В GKE есть отличная интеграция со stackdriver для мониторинга кластера и компонентов, вы также можете добиться этого в AWS.
Внутри Kubernetes также есть больше инструментов. Например:
kubectl top pod --all-namespaces
покажу вам NAMESPACE NAME CPU(cores) MEMORY(bytes)
использование.
Я также писал на StackOverflow на подобную тему. Надеюсь, это будет полезно. Вы можете найти ответ Вот.
И еще есть cAdvisor:
cAdvisor - это агент анализа использования ресурсов и производительности контейнера с открытым исходным кодом. [...] cAdvisor автоматически обнаруживает все контейнеры на машине и собирает статистику использования ЦП, памяти, файловой системы и сети. cAdvisor также обеспечивает общее использование машины, анализируя «корневой» контейнер на машине.
Вот интересная статья о том, как к этому подойти. Я хотел проверить еще одну вещь, связанную со сбором этой метрики, я вернусь, если найду что-то ценное.