У меня есть веб-система. Мне нужно рассчитать время работы всей системы. У меня есть балансировка нагрузки (на данный момент без виртуального ip и избыточной балансировки нагрузки), одна база данных. Два сервера как кластер. Хост-провайдер.
Может ли кто-нибудь грубо сказать мне, как я могу все это принять и как я могу оценить время работы системы?
Как рассчитывается время безотказной работы сложной системы?
Я знаю, что это трудно сказать, но, пожалуйста, объясните несколько общих методов.
В общем, у вас есть вся эта настройка, потому что вас не особенно заботит, выйдет ли из строя один из ее аспектов, пока часть, ориентированная на клиента, все еще работает. Некоторые средства проверки работоспособности проверяют только ответ HTTP 200 от вашего веб-сайта (даже если этот ответ покрыт ошибкой SQL), другие - немного более конкретными.
В общем, это ваш бизнес-план / SLA, и вам нужно его написать. Что вам нужно? Имеет ли значение, если пользователи не могут войти в систему, если все остальное работает? Вам нужна только ваша индексная страница? Или вам нужно, чтобы все это загружалось, прежде чем рассматривать его безотказную работу?
Перестаньте пытаться рассчитать время безотказной работы для всего, и измеряйте только то, что важно - конечный результат.
Работайте снизу (электричество, охлаждение ...) вверх (программный уровень). Даже лучшее программное обеспечение и лучшее решение для кластеризации не помогут вам, если у вас все в одном центре обработки данных, а он внезапно выйдет из строя.
Ваш вопрос очень сложный и при расчетах необходимо учитывать как минимум следующие факторы:
Как хранятся ваши данные? В одном дата-центре? В нескольких центрах обработки данных?
Надежны ли центры обработки данных? Как насчет сетевых подключений между ними?
Насколько надежны ваши маршрутизаторы, балансировщики нагрузки, серверы и другое оборудование или вам нужно часто менять детали?
Во время регулярного технического обслуживания вам нужно отключить весь сайт или вы можете обновить программное обеспечение и т. Д., Не переводя сайт в автономный режим?
Как вы готовы к внешним атакам, таким как DDoS?
Что, если что-то пойдет не так с вашей базой данных, файловым сервером или другими важными компонентами? Да, да, вы упомянули, что они сгруппированы. Это не значит, что они не могут упасть.
Как быстро вы можете восстанавливаться из резервных копий?
Что вы считаете «сайт работает»? Первая страница вверх? Существующие зарегистрированные пользователи работают нормально, но не могут добавлять / удалять учетные записи? Сайт должен ответить не более чем через X секунд? Все должно быть на 100% на высшем уровне?
Или, если расчет Вы имели в виду мониторинг чтобы вы могли увидеть общие тенденции и текущее состояние, а затем взглянуть на Nagios.