Новые технологии, такие как Docker, Mesos, Kubernetes и т. Д., Позволяют намного лучше использовать сервер в организации. Однако я хотел бы знать, как можно максимизировать использование двух центров обработки данных, учитывая отказ всего центра обработки данных.
Учитывая этот сценарий:
Два центра обработки данных (DC-A и DC-B) с равным объемом вычислительных ресурсов. Оба центра обработки данных работают и обслуживают запросы с балансировкой нагрузки / циклическим перебором. Загрузка серверов в обоих центрах обработки данных составляет 80%.
Допустим, DC-B выходит из строя (физический или сетевой) и недоступен. DC-A не сможет добавить дополнительно 80% использования, поскольку оно уже составляет 80%. Оставление организации в состоянии, при котором DC-A потенциально не сможет справиться с дополнительным спросом и вызовет сбои ...
Означает ли это, что организация с двумя центрами обработки данных (DC-A и DC-B) может иметь только 50% максимального использования на центр обработки данных? Т.е. Либо DC выходит из строя, и другой DC сможет подобрать слабину, которую нес другой DC (50% + 50%).
Это правильное мышление? Как другие справляются с этой проблемой или я что-то упускаю?
Для сервисов, которые должны быть всегда доступны, вам нужна избыточность N + 1, где N - количество центров обработки данных или серверов (или чего-то еще, что вы потеряете в предлагаемом сценарии сбоя), необходимого для обработки нагрузки. Это становится дешевле, чем больше вы получаете - на нижнем уровне с двумя центрами обработки данных, каждый из которых должен иметь возможность обрабатывать всю рабочую нагрузку. Но если у вас их 10, они могут выполнять работу 9 и по-прежнему быть избыточными.
Другой вариант - сброс нагрузки, хотя эта фраза чаще используется в энергосистемах. Как правило, в случае отказа отключите все второстепенные службы, чтобы у оставшихся систем было достаточно ресурсов.
Довольно распространенный подход состоит в том, что для производственной среды жестко зарезервированной емкости достаточно, чтобы в случае аварии оставшиеся центры обработки данных могли справиться с полной нагрузкой, и все операции продолжали работать в обычном режиме.
Обычно бюджеты никогда не растягиваются достаточно далеко, и при этом очевидная бизнес-модель не позволяет обеспечить полное аварийное восстановление / отказоустойчивость для непроизводственных сред. В этом случае деградация или полная недоступность могут считаться приемлемыми.
В зависимости от платформы некоторые могут выбрать вариант увеличения доступной производственной мощности для удовлетворения повышенной нагрузки в оставшихся центрах обработки данных путем уменьшения непроизводственных сред в случае аварии.