Назад | Перейти на главную страницу

Отчетность и отслеживание работоспособности сервера

Мой отдел обслуживает 6 серверов под управлением Windows Server 2003 и Ubuntu Server.

Мы должны сообщать и отслеживать время безотказной работы. Я считаю, что у нас должно быть 95% времени безотказной работы, и у нас нет реального способа отслеживать и сообщать эти данные. В настоящее время мы просто делаем это вручную с текстовым файлом и оценками времени простоя.

Какие инструменты существуют, чтобы помочь с этой задачей, или как вы в настоящее время составляете отчет и отслеживаете время безотказной работы вашего сервера?

Ах, одна из моих любимых тем.

Во-первых, вам нужно определить время безотказной работы.

Вы имеете в виду, что сервер работает? (в этом случае просто регулярно пингуйте его в скрипте).

Или вы имеете ввиду приложение запущено? (регулярно подключайтесь к "домашней странице" приложения, если это веб-приложение)

Или вы имеете в виду, что приложение предоставляет бизнес-услуги, которые должны? (в этом случае вам нужно запустить какой-то синтетическая транзакция.

Я думаю, что только последний в каком-то смысле правильный. Остальные технически проще выполнить, но они не связаны с тем, «приносит ли этот сервер ценность для бизнеса».

Как вы увидите, щелкнув ссылку, которую я добавил, есть много компаний, продающих решения, которые делают это, или вы можете использовать свои собственные. У меня есть опыт работы с продуктами NetIQ и Microsoft MOM (у двух из них общая история), но я уверен, что другие тоже работают.

Когда вы выбираете инструмент, подумайте, как учитывать запланированные обновления и периоды обслуживания - наивный подход будет записывать их как простои.

Кроме того, 95% очень нетребовательны - это эквивалентно 72 минутам простоя каждый день или более 8 часам в неделю. Попробуйте вывести свой сервер из строя на весь рабочий день, скажем, каждый четверг, и я думаю, вы обнаружите, что ваше соглашение об уровне обслуживания на самом деле немного сложнее, чем это ...

я использую http://mon.itor.us/ (но сейчас он не работает).

нагиос предоставит вам отчеты о простоях и доступен в стандартных репозиториях ubuntu.