Назад | Перейти на главную страницу

Что проверять во время периодической проверки работоспособности системы

Мне было поручено подготовить список проверок, которые нужно выполнять в рамках еженедельной процедуры проверки работоспособности системы, которую должна выполнять моя команда. Проблема в том, что ни я, ни мои коллеги никогда не были профессиональными системными администраторами, и лучшее, что мы можем придумать, довольно смехотворно.

Система работает под управлением Siemens SIMATIC IT и LIMS, но меня интересуют некоторые общие проверки / тесты для операционных систем и серверов баз данных. Кто-то другой позаботится о тестах, специфичных для запускаемых приложений.

Настройка следующая:

Все серверы виртуальные, работают в среде vSphere5.

Скорее всего, у нас не будет доступа к консоли vCenter, поэтому идея состоит в том, чтобы подключить удаленный рабочий стол к этим серверам, провести конструктивные проверки / тесты и подготовить отчет.

Как я уже писал, я ничего не могу придумать, кроме проверки свободного места на диске. Я также могу подумать о проверке уровня фрагментации файловой системы и ошибок файловой системы с помощью ChkDsk, поиске некоторых важных ошибок и предупреждений в средстве просмотра событий Windows, проверке уровня фрагментации индекса в базах данных и, возможно, сборе некоторой статистики времени отклика и время выполнения некоторых важных запросов.

Я буду очень признателен за любую помощь. Помимо информации о том, что следует проверять, также будут очень полезны советы о том, чего не следует делать в системе, которая находится под нагрузкой 24/5. Например, запуск дефрагментатора даже для анализа на сервере базы данных под нагрузкой может быть очень плохой идеей, но я еще этого не знаю.

Спасибо.

Вас просят сделать это неправильно.

Вы не должны входить в производственные системы и выполнять периодические проверки вручную.
Это гарантирует, что вы (а) пропустите что-то, что происходит между проверками и обрушит ваш бизнес, и (б) в конечном итоге облажаетесь во время проверки и остановите бизнес.

Вместо этого вы должны реализовать Система наблюдения который выполняет непрерывные периодические проверки (каждые 5-10 минут) и сообщает вам об аномалиях. Увидеть тег для получения дополнительной информации и идей о том, что проверить.

Дисковое пространство, использование подкачки и загрузка ЦП (глубина выполнения) - типичные вещи, которые нужно отслеживать. Вы также можете выполнить (и проверить время / проверить вывод) стандартные тестовые запросы на серверах баз данных (эти запросы вы должны создать в зависимости от вашей среды).

Для серверов, работающих под управлением ОС Windows, важными проверками могут быть:

  • Загрузка ЦП.
  • Использование RAM.
  • Свободное место на жестком диске.
  • Служба веб-сервера (IIS) работает или нет.

С сетевой точки зрения:

  • Хорошо настроенный DNS
  • IP от DHCP

Это может быть полезно ...

Я бы добавил в список еще кое-что, потому что это веб-сервер.

  • настроить запланированную задачу на подсчет числа ответов «200», «500», «401» и «503» в журналах IIS - для этого можно использовать LOGPARSER. Идея состоит в том, что сценарий будет подсчитывать количество появлений каждого из них, а затем делить количество ответов 500 и 503 на количество ответов 200. Это даст вам общее состояние производительности ответа веб-сервера в виде отношения неудач (500) / успехов (200).

    • 500 - Ошибка - веб-вызов не удался
    • 503 - Тайм-аут - веб-прокси так и не получил ответа от вышестоящего веб-сервера.
    • 401 - Unauthorized - веб-вызов не прошел аутентификацию
    • 200 - Успех - веб-вызов был обработан без ошибок

Затем сценарий должен загрузить результаты (включая необработанные данные) в центральную систему отчетности, чтобы вы могли изучить ее без необходимости локального входа в систему.

Если вам нужно более глубокое изучение журналов (скажем, какой пул приложений работает плохо, если это применимо), вы можете воспользоваться множеством других вещей, которые вы можете использовать в LOGPARSER, чтобы откопать этот материал.