Мне было поручено подготовить список проверок, которые нужно выполнять в рамках еженедельной процедуры проверки работоспособности системы, которую должна выполнять моя команда. Проблема в том, что ни я, ни мои коллеги никогда не были профессиональными системными администраторами, и лучшее, что мы можем придумать, довольно смехотворно.
Система работает под управлением Siemens SIMATIC IT и LIMS, но меня интересуют некоторые общие проверки / тесты для операционных систем и серверов баз данных. Кто-то другой позаботится о тестах, специфичных для запускаемых приложений.
Настройка следующая:
Все серверы виртуальные, работают в среде vSphere5.
Скорее всего, у нас не будет доступа к консоли vCenter, поэтому идея состоит в том, чтобы подключить удаленный рабочий стол к этим серверам, провести конструктивные проверки / тесты и подготовить отчет.
Как я уже писал, я ничего не могу придумать, кроме проверки свободного места на диске. Я также могу подумать о проверке уровня фрагментации файловой системы и ошибок файловой системы с помощью ChkDsk, поиске некоторых важных ошибок и предупреждений в средстве просмотра событий Windows, проверке уровня фрагментации индекса в базах данных и, возможно, сборе некоторой статистики времени отклика и время выполнения некоторых важных запросов.
Я буду очень признателен за любую помощь. Помимо информации о том, что следует проверять, также будут очень полезны советы о том, чего не следует делать в системе, которая находится под нагрузкой 24/5. Например, запуск дефрагментатора даже для анализа на сервере базы данных под нагрузкой может быть очень плохой идеей, но я еще этого не знаю.
Спасибо.
Вас просят сделать это неправильно.
Вы не должны входить в производственные системы и выполнять периодические проверки вручную.
Это гарантирует, что вы (а) пропустите что-то, что происходит между проверками и обрушит ваш бизнес, и (б) в конечном итоге облажаетесь во время проверки и остановите бизнес.
Вместо этого вы должны реализовать Система наблюдения который выполняет непрерывные периодические проверки (каждые 5-10 минут) и сообщает вам об аномалиях. Увидеть мониторинг тег для получения дополнительной информации и идей о том, что проверить.
Дисковое пространство, использование подкачки и загрузка ЦП (глубина выполнения) - типичные вещи, которые нужно отслеживать. Вы также можете выполнить (и проверить время / проверить вывод) стандартные тестовые запросы на серверах баз данных (эти запросы вы должны создать в зависимости от вашей среды).
Для серверов, работающих под управлением ОС Windows, важными проверками могут быть:
С сетевой точки зрения:
Я бы добавил в список еще кое-что, потому что это веб-сервер.
настроить запланированную задачу на подсчет числа ответов «200», «500», «401» и «503» в журналах IIS - для этого можно использовать LOGPARSER. Идея состоит в том, что сценарий будет подсчитывать количество появлений каждого из них, а затем делить количество ответов 500 и 503 на количество ответов 200. Это даст вам общее состояние производительности ответа веб-сервера в виде отношения неудач (500) / успехов (200).
Затем сценарий должен загрузить результаты (включая необработанные данные) в центральную систему отчетности, чтобы вы могли изучить ее без необходимости локального входа в систему.
Если вам нужно более глубокое изучение журналов (скажем, какой пул приложений работает плохо, если это применимо), вы можете воспользоваться множеством других вещей, которые вы можете использовать в LOGPARSER, чтобы откопать этот материал.