Назад | Перейти на главную страницу

Какие элементы мониторинга показать руководству?

Мое руководство требует, чтобы в коридоре отображался экран наблюдения. Они думают о тех модных скриншотах, которые показывают продавцы, когда пытаются продать это чудесное устройство, которое никогда не ломается (никогда, обещаю). Или то, что мы видим при посещении веб-сайтов Nagio или Cacti (я показывал некоторые, они сказали «да»).

Мое руководство почти ничего не знает о том, что делают компьютерщики. Они хотят, чтобы у них были профессиональные чувства к сети, серверам и т. Д. И, возможно, они сами считались профессиональными.

У нас есть :

Мы уже используем Nagios. Их не интересует наш простой взгляд, говорящий, что все в порядке. Я хотел бы представить им несколько лучших идей, чтобы они сказали мне, что хотят того или другого.

Я думаю о :

Есть идеи получше?

Интересная проблема. Раньше мне приходилось придумывать подобные информационные панели, но никогда не приходилось делать это ни для чего, кроме технического менеджмента. Тип дисплея, который вы ищете ... может потребовать специального кода для представления информации из любой системы мониторинга, которую вы используете. Некоторые системы (я сейчас думаю о Zenoss) обладают достаточной настраиваемостью, чтобы, возможно, что-то построить внутри, но для истинной полировки вы будете повторно представлять данные, которые уже собираете.

Такого рода менеджеры высшего уровня ищут общую картину с возможностью детализации. Ваши отображаемые элементы должны быть самыми важными элементами. Не зная ваших приложений, я бы, вероятно, поместил на панель управления следующее:

  • Пропускная способность сети для подключения к Интернету (график или циферблат)
  • Диаграмма, показывающая загрузку в базе данных Oracle. Я понимаю, что это сложно обнаружить, но найти некоторые прокси и отобразить его.
  • Какое-то общее отображение дискового пространства. Если он меняется достаточно часто, график или простой термометр, если нет.
    • Если их это беспокоит, диаграммы для каждой интересующей их организационной единицы; может быть труднее достать.
    • Если вы используете общее хранилище, диаграмма, показывающая нераспределенное пространство на вашем дисковом массиве (ах), построенная с течением времени. Это крупнобюджетные статьи, поэтому их стоит отслеживать.
  • Статус на уровне приложения: работает ли приложение, работает в ухудшенном, но функциональном состоянии, или не работает?
  • Загрузка приложения-сервера.

Я бы на самом деле держался подальше от тепловой карты VPN, если они действительно этого не хотят. Это полезно для хорошей плотности информации, которая сама по себе может быть целью, но я не думаю, что она передает значимую информацию на их уровень.

Точно так же переключите пропускную способность, если только вы не беспокоитесь о пропускной способности объединительной платы. Если им нужна красивая информация, дерзайте. Но если они хотят полезный Я бы добавил его только в том случае, если на дисплее осталось место.

Дисковый ввод-вывод может быть хорошей идеей по политическим причинам (резервное копирование действительно дорого по вводу-выводу, черт возьми, нам для этого не нужно больше виджетов) или изрядной плотности, но опять же, это не то, что я бы представил высшему руководству.

Интересный вопрос (извините, я немного опоздал на вечеринку, но это радость ServerFault и Интернета - теперь это для потомков).

Я думаю, что правильный ответ - представить руководству комбинацию «показать» и «пойти». Даже если они нетехнические, наличие некоторого содержания и логики в том, что вы представляете на панели инструментов, произведет хорошее впечатление. Вы можете взять данные и представить их в любом количестве визуально привлекательных способов (диаграммы, графики и т. Д.).

Я просто написал статью о мониторинге в целом, не относящуюся к конкретному производителю, которая называется Дзен и искусство системного мониторинга. Узнайте подробности о какие контролировать, вне зависимости от системы / приложения.

Короче говоря, способ подумать о том, что полезно (и нетехнический менеджмент это оценит), - это разбить ваши системы на уровни и придумать одну или две метрики для каждого уровня - несколько ключевых метрик приложения, статистику процесса, статистика сервера, статистика сети и т. д. Какая статистика актуальна, зависит от того, что делают ваши приложения (являются ли они веб-серверами? Тяжелыми сетями? Тяжелыми дисками?).

Подумайте также о мониторинге не только «плохих вещей», но и «отсутствия хороших вещей» - в Google есть старые предания о мониторинге систем, согласно которым, отслеживая «AdWords $ / сек», вы получите довольно хорошее представление обо всем стеке. . Итак, выясните, какая у вас версия, и включите ее в свои информационные панели.

Надеюсь, это полезная пища для размышлений всем будущим, кто наткнется на этот ответ.