Недавно мы изменили настройку зеркала, чтобы включить в него свидетеля, поэтому мы поддерживаем автоматическое переключение при отказе, вчера в нашем центре обработки данных было запланировано техническое обслуживание некоторых сетевых источников питания (я считаю, что они изменили некоторые маршрутизаторы и тому подобное).
К сожалению, это вызвало некоторую нестабильность в нашей сети, и я ничего не могу изменить сейчас (кроме как написать гневное письмо!). Что меня действительно беспокоит, так это следующий сценарий.
У нас есть около 10 баз данных, работающих на Принципале, который мы называем 90, затем 91 - это наше зеркало, а 92 - наш свидетель.
Вчера @ 09:35 Свидетель и Зеркало заявили, что потеряли связь с принципалом, и повысили Зеркало до Принципала. Однако Директор (на 90-й) никогда не заявляет, что потерял связь со свидетелем, и делает это (остается на связи). Затем примерно в 09:54 90 заявили, что потеряли связь с Зеркалом (что имеет смысл, поскольку @ 09:25 это стало основным ... он просто осознает, что это на 30 минут позже ?!).
На данный момент у нас есть две четверти. 90 может видеть 92 и оставаться основным, а 91, который был повышен, также может видеть 92 ...
К сожалению, в этот момент принципал (90) начал создавать ужасные взаимоблокировки и отказывался отвечать на какие-либо команды. Клиенты, у которых настроена строка соединения с партнером по аварийному переключению, все же могут пинговать / подключаться к 90, что означает, что ни один из них не переключился на 91. В конце концов, мы перезапустили сервер SQL Server isntance на 90-м, что обеспечило правильное переключение всех баз данных при сбое.
Я лично не знаю, как возникла эта ситуация, если что-то не так с нашей настройкой, меня действительно беспокоит тот факт, что у нас как-то было два директора, тем более, что первоначальный принципал работал около 30 минут, оставив нам 30-минутный перерыв. когда нам удалось превратить его в зеркало.
Мы будем очень благодарны за любую информацию по этому поводу, поскольку на данный момент мы все это в значительной степени потрясены.
В то время (09:35) вы проверяли монитор зеркалирования, чтобы узнать, в каком состоянии? , вы получаете уведомления об этих событиях?
Возможно, что соединение между 90 и 91/92 было прервано из-за технического обслуживания сети, поэтому 91 также стал основным, для клиентов ничего не происходит, потому что соединение с 90 все еще установлено ... таким образом, вы создаете ситуацию.
Что я, вероятно, сделал (сейчас легко сказать :), если бы знал о двух основных ситуациях ..
на 90, который в то время работал нормально, обслуживал клиентов и т. д., удалите конфигурацию зеркального отображения из баз данных, таким образом базы данных останутся согласованными, и все останется в сети.
После этого вы можете снова перенастроить зеркалирование без простоев.