У нас 6 серверов ESX с +150 виртуальными машинами. В настоящее время наш сервер VCenter является одной из этих виртуальных машин. На днях у нас произошел аппаратный сбой в нашем DC (вызванный непослушным ИБП), из-за которого вышли из строя два из этих серверов. На первом извлеченном сервере был запущен наш основной сервер VCenter, на втором - наш сервер HA / Heartbeat VCenter, поэтому ни один из наших хостов не мигрировал с двух вышедших из строя хостов на 4 рабочих, и мы потеряли большую часть нашего управления виртуальными машинами (все пользователи используйте VSphere). Это очень прискорбное обстоятельство, и, надеюсь, не должно происходить слишком часто, но мне было интересно, стоит ли запускать наш основной сервер VCenter на отдельном сервере в другом центре обработки данных * / избыточном блоке, выделенном только для VCenter, с резервная копия является виртуальной машиной? Это вообще возможно? (Все, что у нас есть, это виртуальное устройство, хотя, если бы оно было доступно, я бы не подумал, что его слишком сложно отследить).
* Стыдно сказать, мы запускаем все наши серверы VMWare на одном DC. Мы зеркалируем SAN на второй DC, но у нас там нет серверов. Это только серверы разработки / некритические серверы, но люди все равно кричат, если они не работают.
Почему бы и нет? Я не знаю, предписывает ли VMware вам запускать vCenter на физическом или виртуальном оборудовании, я считаю, что он поддерживается на обоих.
В зависимости от того, от каких видов сбоев вы пытаетесь защититься, обычно рекомендуется как можно больше отделить резервные / резервные экземпляры от основных / активных экземпляров. Раздельные сети, кабины, источники питания и даже здания, города и страны - все это хорошие идеи, просто они стоят разную сумму и имеют свой уникальный набор проблем.
В этом конкретном случае это звучит так, как будто у вас был один из тех сбоев, которые вы не спланировали / не учли или сознательно решили не проектировать. Размещение ваших серверов управления в той же инфраструктуре, что и хосты ESXi, вместе с теми же источниками питания, сетями и т. Д. - все это сопряжено с одним и тем же риском того, что одно событие может все вывести из строя.
У вас есть выбор - либо вы можете не менять ничего и жить с отключениями, вызванными повторением этого конкретного типа события, либо отказаться от этого и потратить немного денег на смягчение последствий. Любой из этих подходов является допустимым, он полностью зависит от того, во сколько вам обойдутся перебои в работе и сколько вам будет стоить изменение.
Я не верю, что это имеет значение для установки на «голое железо» или виртуализации. Единственное ограничение, которое я видел при текущей настройке высокой доступности, - это расстояние менее 10 мс между узлами. Для нас это ограничивает нас одним центром обработки данных - у меня нет других центров обработки данных, достаточно близких для доступа 10 мс.
Вот Руководство по передовой практике для vCenter 6.5 High Availability.
Поскольку вы, вероятно, застряли в одном центре обработки данных с 3 экземплярами vCenter для конфигурации высокой доступности, вам нужно устранить как можно больше общих черт между ними. Отдельные серверы, отдельные стойки, разные части комнаты или здания, разные хранилища и т. Д. Чем больше вы сможете отделить каждый узел от другого, тем больше у вас шансов, что единичный сбой где-то не приведет к их поломке.