Во-первых, у нас есть двухузловой кластер Windows 2008 R2 с HA Hyper-V и DHCP. Для хранения мы используем серверную сеть Dell MD3000i iSCSI SAN. Вся работа в сети осуществляется с помощью резервных коммутаторов и драйверов MPIO. Сеть передачи данных находится в VLAN, отличной от основной сети.
Вот сценарий, с которым мы продолжаем сталкиваться:
Иногда у нас бывают отключения электроэнергии. У нас есть два ИБП в шкафу, и они работают около 15 минут или около того, но если мы не вернем питание, выйдет из строя все узлы кластера, SAN и все остальное.
В конце концов, питание снова включается, все устройства настроены на загрузку при восстановлении переменного тока. Однако, когда у нас такой полный сбой, кластер никогда не возвращается в рабочее состояние должным образом. Мы получаем обычные ошибки, например, что диск кворума недоступен и т. Д. Вдобавок два наших основных контроллера домена - это виртуальные машины на вершине кластера виртуальных машин. У нас есть физический сервер, работающий как другой контроллер домена, и мы думаем, что это поможет, когда что-то вернется в сеть.
Чего мы не понимаем, так это того, почему система не может восстановить себя при загрузке, в конце концов, есть доступный DC для аутентификации. Сеть iSCSI снова в сети, что-то еще нам не хватает?
Я думаю, это может быть связано с тем, что служба инициатора iSCSI запускается недостаточно быстро, когда служба кластера готова к работе.
Есть какие-нибудь идеи или вещи, которыми я могу помочь?
Спасибо, Брент
У нас была такая же проблема с нашим кластером, который не возвращался в исходное состояние после сбоя питания. Как и вы, общее хранилище находится в сетях iSCSI SAN. Для нас исправление заключалось в том, чтобы гарантировать, что запуск хоста виртуальной машины и гостя откладывается на достаточно долгое время, чтобы сети SAN снова были в сети ПЕРВЫМИ. Мы обнаружили, что, если мы этого не сделаем, общие тома будут повторно подключаться, но останутся в автономном состоянии, что приведет к сбою кластера ....
Я столкнулся с этой проблемой в своей собственной системе. После сбоя питания кластер просто не мог вернуться к работе либо потому, что контроллер домена не был готов, либо потому, что SAN еще не была готова. Для тех, у кого нет управляемых PDU или параметров BIOS для задержки запуска, и вам нужно добавить задержку загрузки, есть простой метод, опубликованный в этот блог
В Server 2008 откройте командную строку и введите:
bcdedit /copy {current} /d "Boot delay placeholder"
bcdedit /timeout 300
Это создает второй параметр меню загрузки (необходимый для появления тайм-аута) и устанавливает тайм-аут на 5 минут (300 секунд). Сервер будет находиться в меню загрузки до тех пор, пока не истечет время ожидания или кто-нибудь не нажмет клавишу ввода.