Когда хранилище считается высокодоступным?

Я читал в нескольких местах людей, описывающих следующую конфигурацию как высокодоступную:

2 сервера (иногда с несколькими HBA), каждый из которых подключен через несколько кабелей SAS к один Корпус RAID с поддержкой многопутевого ввода-вывода.

Конечно, сам RAID-массив по определению имеет уровень резервирования, но как насчет корпуса? Разве это не сработает, или это единственная точка отказа в описанной выше настройке?

Извините, если это вопрос новичков.

ИМО есть разница между «высокой доступностью» и «без единой точки отказа». Кроме того, вы должны учитывать масштабы HA, вы можете иметь что-то, что является HA для хранения, но не для приложения (один сервер. Глупо, я знаю, но я видел, как это произошло).

Вероятно, более полезно выяснить ваши требования к времени безотказной работы, а затем работать в обратном направлении, чтобы обратиться к различным компонентам. Кроме того, для меня HA охватывает доступность в одном месте. Business Continuance / DR обращается к многосайтовой части. Таким образом, у вас может быть комбинация обоих: HA в каждом месте, а DR является самым дорогим. И снова требования RTO / RPO влияют на процесс проектирования и принятия решений.

Дораэмон, отвечая на ваш вопрос о неисправности деталей в корпусе.

Детали в корпусе мог и в какой-то момент потерпит неудачу. Но в зависимости от массива внутри массива могут быть избыточные части. Таким образом, остается само ограждение, что IMO не так уж и важно. Если у вас есть второй массив, типичные схемы DC имеют тенденцию кластеризовать массивы хранения вместе, поэтому, если один из них загорится, это, вероятно, повлияет на другие.

Хорошее рабочее определение для вашего сайта

«Высокая доступность» означает для разных людей много разных вещей. Когда я писал программное обеспечение для телекоммуникационных систем операторского класса, у нас было несколько требований к избыточности:

сеть: два пути через Ethernet, проходящие через два разных коммутатора
диски: рейдовые и др.
питание: резервные источники питания, проходящие через две разные подсистемы питания (это было сделано для нас нашими шкафами)

Критерии выводятся из вопроса:

Есть ли какие-либо операции по техническому обслуживанию, которые приведут к простою?

повышение мощности
модернизация коммутатора Ethernet
замена дисков

Выясните, как эти и подобные вопросы применимы к вашей ситуации, и у вас будет хорошее рабочее определение для вашего сайта.

Вероятно, лучшее определение термина «высокая доступность» - это то, что вы можете выполнить некоторые вычисления, чтобы оценить время безотказной работы. (99,8%, 99,999%, как бы то ни было. Обычно измеряется за месяц или год) И это должно быть мерой доступности услуг для ваших клиентов; любое измерение «сам сервер был включен, это не моя вина, что сеть не работает» не в счет.

Это почти наверняка означает, что у вас нет компонента, требующего обслуживания, который останавливает работу служб, когда он получает обновление прошивки или что-то в этом роде. Как только вы пройдете примерно 3 девятки, вероятно, ваши серверы будут иметь лучшую доступность, чем сеть, ваша мощность и т. Д. (Похоже, что в огромных частях Интернета возникают проблемы на несколько часов каждые несколько лет, так что вы, вероятно, сможете Если клиенты обращаются к вам через Интернет, то вряд ли пройдут более 4 девяток)

Что касается того, что вы описали: это хорошее начало, и это зависит от обстоятельств.

Вещи, склонные к сбоям, примерно в порядке вероятности:

люди ("что делает эта кнопка?")
программное обеспечение (вздох)
что-нибудь с движущейся частью (жесткий диск, вентилятор)
чипы (в основном потому, что у них очень маленькие версии другой электроники, и у них есть прошивка, которая является программным обеспечением)
конденсаторы (продолжайте слышать о плохих партиях этих)
транзисторы, резисторы, другая электроника, особенно если есть какие-либо тепловые циклы

Если шасси, объединительная плата и т. Д. В корпусе RAID достаточно просты, они могут быть достаточно устойчивыми, чтобы обеспечить время безотказной работы 99,99% (скажем, время ремонта 4 часа и вероятность отказа 1 из 5 в год) или что-то в этом роде. Это, вероятно, лучше, чем доступность вашей сети или источника питания, даже с парой сетевых путей к вашему сайту и разумной инфраструктурой ИБП.

Возможно, что корпус RAID действительно представляет собой электронно два отдельных блока с отдельным путем к каждому диску (накопители с двойным разъемом сейчас достаточно распространены), своего рода тактовый сигнал между ними и обеими системами, подключенными к обоим контроллерам. Если нерезервированные части представляют собой просто металлическую коробку и очень простую проводку, она будет квалифицирована как «высокодоступная» по большинству стандартов, поскольку металлические коробки обычно не выходят из строя, а простая проводка вряд ли выйдет из строя, если она не сделана плохо.

Другими словами: мы не знаем. Каков рейтинг MTBF и среднее время ремонта каждой детали?

В течение некоторого времени он использовался в отрасли как «высокодоступный» и является одним из шагов на уровне маркетинга систем хранения. Следующий шаг - «Непрерывность бизнеса», когда они пытаются продать вам технологию блочной репликации между двумя своими дисковыми массивами. У некоторых также есть допродажа, которая позволяет операционной системе хоста плавно выходить из строя между ними.

На мой взгляд, это не вполне HA как рассматриваемый дисковый массив звучит так, как будто он поддерживает не более двух хостов. «Настоящая» высокая доступность будет включать дисковый массив в какой-либо сети хранения данных, будь то Fibre Channel или iSCSI.

Как и все, есть разные степени высокой доступности. Высокодоступное хранилище с прямым подключением того типа, который вы описываете, способно противостоять большинству единичных точек отказа, но если что-то убивает массив, то, очевидно, он выйдет из строя.

На уровне массива для повышения доступности добавляются такие функции, как резервные источники питания, резервные контроллеры (с зеркалированием кэша и состояния), резервные вентиляторы и избыточные интерфейсы ввода-вывода. Все они в идеале должны иметь возможность горячей замены, чтобы вы могли противостоять сбоям / проводить профилактическое обслуживание, не выключая его.

На внешнем интерфейсе с резервным питанием высокопроизводительные системы имеют независимые резервные системы питания как часть стандартной установки, а для истинных параноиков вы питаете их от независимых сетей переменного тока с независимыми вариантами резервного генератора. Кэш с резервным питанием от аккумулятора \ удаление кеша используется для обеспечения согласованности, даже если все, что вы сделали для его работы, по-прежнему не предотвращает сбоя.

Кроме того, вы можете (должны) рассмотреть возможность репликации в отдельный массив в другой серверной комнате \ датацентре \ городе. Репликация - сложная задача, поскольку переключение на реплику всегда является сложным процессом, но даже в самом простом случае он будет намного быстрее, чем восстановление \ восстановление.

Стоит отметить, что самой большой проблемой, как правило, являются человеческие ошибки - спроектировать хранилище, способное выдерживать человеческие ошибки, довольно сложно. SAN в некоторой степени обходит это, рекомендуя двойные (или более) полностью независимые структуры, чтобы изолировать физические ошибки и ошибки конфигурации, но на уровне массива такой уровень устойчивости - это не то, что я часто видел.