Назад | Перейти на главную страницу

Как * вы * * отслеживаете и документируете текущее обслуживание?

Какое программное обеспечение или систему вы, ребята, используете при сбое сервера, чтобы напоминать вам о плановом обслуживании? Как вы составляете список и регистрируете различные элементы, которые должны проверять? У вас есть внутренний технологический документ? У вас есть cron-рассылка вам каждую неделю с напоминаниями о проверке системных журналов?

Кроме того, работаете ли вы в команде по обслуживанию системы, и если да, то как вы координируете, кто и какое обслуживание будет выполнять?

Если вы используете систему отслеживания ошибок / проблем для ввода задач, есть ли у вас задание cron для ввода повторяющихся задач?

В настоящее время я использую трекер запросов (http://www.bestpractical.com/rt)
Все мероприятия по техническому обслуживанию получают соответствующий билет в очереди «систем». Примечания о возникших проблемах, о том, кто и когда выполнял какие работы, и т. Д. Вносятся в заявку вместе с необходимыми разрешениями.

На данный момент наши повторяющиеся задачи (ежеквартальная установка исправлений и т. Д.) Создаются вручную, но их можно достаточно легко автоматизировать (задание cron + электронная почта).

Координация того, кто выполняет ту работу, относительно легко для нас, поскольку в нашей группе администраторов всего 2 человека, но по мере увеличения масштабов план состоит в том, чтобы создать главный билет для мероприятий по техническому обслуживанию и использовать дочерние билеты, назначенные ответственным сторонам, для делегирования работы .


Другое дело - ежедневные операции (проверка журналов и т. Д.): Все это я отдал автоматизированным процессам:

  • InterMapper следит за общим состоянием серверов (запросы SNMP, ищущие высокую нагрузку, мало места на диске и т. д.), функциональностью наших веб-интерфейсов и прочим, что может указывать на проблемы.
  • Системный журнал-NG собирает логи с наших хостов и скармливает им через кучу скриптов, которые проверяют очевидную неисправность. Я время от времени просматриваю журналы, чтобы проверить работоспособность скриптов, но это не всегда запланировано.

Правильно реализованная автоматизация полностью устраняет необходимость в списках задач и контрольных списках. Почему вы хотите проверять вещи вручную, когда у вас есть компьютеры, которые могут выполнять эту работу гораздо эффективнее и результативнее?

Все, что требует периодической проверки, проверяется системой мониторинга. Рутинные задачи автоматизируются, когда это возможно, и отправляются напоминания о тех немногих задачах, которые необходимо выполнить вручную. Документация - другое дело, но если все сделано правильно, ваши компьютеры в большинстве случаев могут создавать свою собственную документацию.

Перестаньте искать способы лучше ручного управления и начните искать более автоматизированные способы выполнения любой работы. Компьютеры должны работать на нас, а не мы, чтобы работать на них.

Что касается проектной работы, то он выводится из приложения Project Management (электронная почта и календарь, интегрированные с возможностью документировать подробную работу и планировать ее для конкретных людей).

Для обслуживания, обновлений, исправлений и т. Д. У нас есть система продажи билетов, которая более или менее интегрируется с нашим процессом управления изменениями для обработки запросов и планирования.

Для полностью внутренней работы и длительных циклов (ежеквартально, ежегодно и т. Д.):

Напоминания о делах записываются в календарь. Существует неофициальная / полуформальная документация («вики») для того, что может быть общим расписанием.

Существует некоторое количество инструкций и процедурной документации о том, как выполнять задачи, и они доступны для всей команды, но у людей есть свои собственные административные «черные книги» и журналы с примечаниями и рецептами.

Система мониторинга может помочь в следующих случаях:

  • Мы документируем каждый раунд ежемесячного обслуживания в файле Word с флажками. Каждый месяц мы сохраняем отчет в папку на нашем NAS. Мы следим за минимальным возрастом файлов папки. Если минимальный возраст файла превышает 40 дней, мы получаем сигнал тревоги.

  • Одна из частей нашего обычного обслуживания - это перезагружать выбранные серверы и устройства один раз в месяц. Мы используем датчики «безотказной работы системы» (SNMP / WMI) в нашем программном обеспечении для мониторинга, и если время безотказной работы превышает 40 дней, мы получаем сигнал тревоги.

  • Для резервного копирования мы отслеживаем минимальный возраст файлов в папке резервного копирования каждого сервера на нашем NAS. Если минимальный возраст файла превышает 10 дней, мы получаем сигнал тревоги.

Я использую Checkpanel (https://checkpanel.com) для управления моими повторяющимися задачами обслуживания. Он предоставляет многоразовые контрольные списки и простой интерфейс для регистрации результатов каждой проверки.

После проверки элемента это не просто "сделано", но остается доступным для дальнейших проверок. Каждая проверка записывается, так что вы можете легко просмотреть историю всех прошлых проверок элемента, включая дополнительные сведения (например, сообщения об ошибках для неудавшихся проверок).

Вы можете установить периодичность для каждого элемента, чтобы убедиться, что вы проверяете его не реже одного раза в неделю / каждые 2 дня / и т. Д. Имеется консолидированный просмотр всех подлежащих оплате элементов. При желании вы также можете получать ежедневное электронное письмо со всеми необходимыми пунктами.

Есть шаблон контрольных списков обслуживания сервера которые вы можете использовать в качестве основы для ваших собственных контрольных списков. Другие шаблоны включают контрольные списки для веб-приложений, WordPress и др.

Раскрытие информации: я являюсь основателем Checkpanel.