Я собираюсь составить SLA поддержки. В качестве основы я хотел бы примерно знать, какой процент доступности я должен ожидать от некластеризованного Windows 2003 Server.
Предполагается, что сервер удобно настроен для приложения, на котором он работает (поэтому он не будет трудоемким), и что под временем безотказной работы я подразумеваю, что сервер доступен. Он нуждается в основном в общем обслуживании (установка исправлений безопасности и т.п.).
Чего ожидать людям?
При составлении SLA важнее согласовать с клиентом, чего он ожидает (и что он может себе позволить), а не то, что вы готовы поддержать в рамках имеющихся у вас ограничений оборудования и бюджета.
Например: один некластеризованный сервер не подходит для клиента, которому требуется 99,999% времени безотказной работы, круглосуточная поддержка по вызову и 1 час «возврата к работе» в случае серьезного сбоя. Принимать это неразумно с технической точки зрения, и заказчик должен это понимать.
Да, Windows 2003 Server надежен и может работать очень хорошо. Фирменные серверы поставляются с проверенной надежностью и надежными гарантиями. Регулярный мониторинг и TLC на сервере могут поддерживать его в течение многих лет.
Вам нужно «надеяться на лучшее, но планировать худшее».
Вам также необходимо точно рассчитать статистику доступности и согласовать расчет с заказчиком (1 час простоя в 2 часа ночи - это другая «стоимость» по сравнению с 11 утра вторника).
Вам потребуется включить все дополнительное оборудование, необходимое для поддержания работы сервера (сеть, коммутаторы, брандмауэры, время оператора, резервное копирование).
Наконец, вам нужно будет протестировать свои планы действий в чрезвычайных ситуациях и сохранить гибкость вашей инфраструктуры, чтобы вы могли устранить неисправность несколькими способами.
На самом деле это не стандартная цифра, которую мы можем вам процитировать, сервер 2003 сам по себе является очень стабильной системой, но ожидаемое время безотказной работы зависит от ряда переменных факторов.
Теоретически единственное, для чего вам нужно отключить сервер, - это применить обновления, которые должны выполняться не чаще одного раза в неделю. Вы можете рассчитать время простоя для них, подсчитав, сколько времени потребуется вашему серверу для перезагрузки.
Теоретически это все хорошо, но все мы знаем, что серверы отключаются по другим причинам, например, из-за сбоев оборудования, сетевых проблем, зависания программного обеспечения, и это не то, что вы можете легко предсказать, но было бы целесообразно вовремя уложиться в непредсказуемые события. .
Наконец, вы захотите учесть время для запланированных обновлений или изменений, будет ли использование сервера со временем увеличиваться, потребуются ли обновления, чтобы справиться с изменениями?
Все эти факторы дадут вам прогнозируемое время безотказной работы, и может оказаться, что ваше фактическое время безотказной работы лучше, чем это, если у вас нет сбоев, обновлений и т. Д., Но лучше быть осторожным.
По моему опыту работы с Server 2003 Standard R2, я могу сказать вам, что он высокий, если у вас нет проблем с оборудованием / сетью.
Два сервера, которые у меня работают, под управлением Server 2003, ни разу не сломались сами по себе. Один сервер имеет рекордное время безотказной работы - 240 дней !!! Обратите внимание: это потому, что они никогда не устанавливали обновления в систему.
Чтобы вывести 2003 из строя при нормальной работе, потребуется много времени.
Вы можете запланировать SLA для обновлений, то есть один раз в неделю на срок до 2 часов, например, если все идет нормально. Но если вы не начнете кластер с отработки отказа и т. Д., Вы действительно не сможете заключить соглашение об уровне обслуживания для всего остального. Что произойдет, если вы выполните обновления, перезагрузите сервер, а он не запустится? Или он получает вирус, или контроллер диска умирает, проблемы могут быть бесконечными.
Лучше указать SLA для применения обновлений и SLA для ответа на возникающие проблемы.
Выполните SLA, так как я отвечу на сбой в течение 1 часа, но время на устранение или временное устранение сбоя будет варьироваться, так как этого нельзя ожидать.
Windows любой версии получает выгоду от регулярных перезагрузок. В самой операционной системе есть утечки памяти, даже без учета приложений и сервисов. Обновления также требуют перезагрузки. Вы можете легко объединить эти две операции и каждую неделю иметь простой, равный времени, необходимому для перезагрузки.
Попробовав целый ряд способов применения обновлений и регулярных перезагрузок, я понял, что лучший способ - это сценарий обновлений, но не позволять процессу обновления перезагружать машину. Я испытал несколько случаев, когда серверы либо не выключались должным образом, либо не возвращались должным образом, когда перезагрузка вызывается обновлением по сценарию. Выполните перезагрузку отдельно. Я планирую установку обновлений, начиная с 23:00 в субботу вечером и перезагружаю серверы с 3:00 до 4:00 в воскресенье.
Система мониторинга не выдает предупреждения в течение этого периода, чтобы предотвратить создание ненужных предупреждений. Кроме того, серверы отправляют мне письмо по электронной почте после перезагрузки. Просыпаясь воскресным утром, я проверяю электронную почту. Если есть какие-либо предупреждения или у меня нет электронного письма от каждого перезагруженного сервера, я знаю, что у меня проблема. Однако этого еще не произошло.
В 30-дневном месяце 43 200 минут. Время безотказной работы 99,75% составляет 43092, что дает вам 108 минут простоя для выполнения любого планового обслуживания. Этого должно быть более чем достаточно, хотя я думаю, что это нормально, если в SLA запланировано крупное техническое обслуживание (включая, но не ограничиваясь, обновления), исключенное из SLA.
Сложнее всего в чрезвычайной ситуации - сколько времени вам понадобится, чтобы добраться до сервера, выявить проблему и исправить ее. В этом случае четырех часов может быть недостаточно (99,44%).
Я присматривал за размещенными в одном месте серверами Windows с 2000 года, и за все это время я могу вспомнить 4 сбоя, вызванных отказом брандмауэра (отдельное оборудование, 2 раза катастрофически), 1 DoS-атака в сети (не на наши серверы, но на них), а также несколько значительных периодов планового обслуживания, требуемых центром обработки данных. Сами серверы Windows ... кроме применения исправлений или пакетов обновления, я не могу ничего придумать. (быстро коснуться дерева)
Чего я ожидал? Минимум 99,5% (что звучит плохо), но это, по крайней мере, дает вам шанс. В большинстве месяцев вы будете около 100,00%. Не поднимайтесь выше (99,5), если клиент не платит за это ...