Назад | Перейти на главную страницу

Вероятность отказа корпуса блейд-модуля

В моей организации мы думаем о покупке блейд-серверов вместо стоечных. Конечно, поставщики технологий также делают их очень красивыми. Проблема, которую я очень часто читаю на различных форумах, заключается в том, что существует теоретическая возможность выхода из строя серверного шасси, что, как следствие, приведет к отключению всех блейд-серверов. Это связано с общей инфраструктурой.

Моя реакция на эту вероятность была бы иметь избыточность и два шасси вместо одного (очень дорого, конечно).

Некоторые люди (в том числе, например, продавцы HP) пытаются убедить нас в том, что отказ шасси очень маловероятен из-за множества избыточностей (резервный источник питания и т. Д.).

Еще меня беспокоит то, что если что-то выйдет из строя, могут потребоваться запасные части, что затруднительно в нашем регионе (Эфиопия).

Поэтому я хотел бы спросить опытных администраторов, которые управляли блейд-сервером: каков ваш опыт? Выходят ли они из строя в целом - и какова разумная общая инфраструктура, которая может дать сбой?

Этот вопрос можно распространить на общее хранилище. Опять же, я бы сказал, что нам нужны две единицы хранения вместо одной - и снова производители говорят, что это настолько надежно, что сбоев не ожидается.

Что ж - я с трудом могу поверить, что такая критически важная инфраструктура может быть очень надежной без избыточности - но, может быть, вы мне скажете, есть ли у вас успешные проекты на основе blade-серверов, которые работают без избыточности в своих основных частях (шасси, хранилище ... )

Сейчас мы смотрим на HP - IBM выглядит слишком дорого.

Низкая вероятность полного отказа шасси ...

Вы, вероятно, столкнетесь с проблемами на своем объекте, прежде чем поддерживать полный выход из строя корпуса блейд-сервера.

Мой опыт в основном связан с HP C7000 и HP C3000 корпуса для лезвий. Я также управлял блейд-решениями Dell и Supermicro. Продавец имеет значение. Но в целом оборудование HP было звездным, Dell - в порядке, а Supermicro не хватало качества, отказоустойчивости и просто плохо спроектировано. У меня никогда не было сбоев со стороны HP и Dell. У Supermicro действительно были серьезные сбои, вынудившие нас отказаться от платформы. На HP и Dell я никогда не сталкивался с полным отказом корпуса.

У меня были тепловые явления. Кондиционер не работал в объекте совместного размещения, из-за которого температура достигла 115 ° F / 46 ° C в течение 10 часов.
Скачки напряжения и сбои на линии: потеря одной стороны подачи A / B. Индивидуальные сбои в электроснабжении. В моих конфигурациях лезвий обычно шесть блоков питания, так что есть много предупреждений и резервов.
Сбои отдельных блейд-серверов. Проблемы одного сервера не влияют на остальные в корпусе.
В шасси Пожар...

Я видел множество сред и имел преимущество установки в идеальных условиях центра обработки данных, а также в некоторых более суровых местах. Что касается HP C7000 и C3000, главное, что нужно учитывать, это то, что шасси полностью модульный. Компоненты спроектированы таким образом, чтобы минимизировать влияние отказа компонента, влияющего на работу всего устройства.

Подумайте об этом так ... Основное шасси C7000 состоит из передней, (пассивной) промежуточной и объединительной плат. Структурный корпус просто скрепляет вместе передние и задние компоненты и поддерживает вес системы. Практически все детали можно заменить ... поверьте, я много разбирал. Основные резервы связаны с вентилятором / охлаждением, питанием и сетевым управлением. Процессоры управления (Встроенный администратор HP) могут быть спарены для резервирования, однако серверы могут работать и без них.

Полностью заполненный корпус - вид спереди. Шесть блоков питания внизу работают на всю глубину корпуса и подключаются к модульной объединительной плате питания в задней части корпуса. Возможна настройка режимов питания: например, 3 + 3 или n + 1. Таким образом, в корпусе определенно есть резервирование питания.

Полностью укомплектованный корпус - вид сзади. Сетевые модули Virtual Connect на задней панели имеют внутреннее кросс-соединение, поэтому я могу потерять ту или иную сторону и по-прежнему поддерживать сетевое подключение к серверам. Есть шесть блоков питания с возможностью горячей замены и десять вентиляторов с возможностью горячей замены.

Пустой корпус - вид спереди. Обратите внимание, что в этой части корпуса действительно ничего нет. Все соединения проходят через модульную объединительную плату.

Сборка промежуточной панели удалена. Обратите внимание на шесть источников питания для сборки промежуточной панели внизу.

Сборка промежуточной панели. Здесь происходит волшебство. Обратите внимание на 16 отдельных соединений нижней панели: по одному для каждого из блейд-серверов. У меня были отдельные серверные сокеты / отсеки, которые выходили из строя, не уничтожая весь корпус и не влияя на другие серверы.

Объединительная плата (и) блока питания. Блок на 3 диаметра ниже стандартного однофазного модуля. Я изменил распределение питания в своем центре обработки данных и просто заменил объединительную плату блока питания, чтобы использовать новый метод подачи питания.

Повреждение разъема шасси. Этот конкретный корпус упал во время сборки, сломав контакты ленточного соединителя. Это оставалось незамеченным в течение нескольких дней, в результате чего шасси отвала загорелось ...

Вот обугленные остатки ленточного кабеля объединительной платы. Это контролировало некоторые параметры температуры корпуса и мониторинг окружающей среды. Блейд-серверы внутри продолжали работать без происшествий. Пострадавшие детали были заменены на досуге во время планового простоя, и все было хорошо.

Я управляю небольшим количеством блейд-серверов уже восемь лет, и у меня еще не было общесистемного сбоя, из-за которого несколько блейд-серверов отключились. Я подошел очень близко из-за проблем, связанных с питанием, но еще не имел сбоев всего шасси, которые не были связаны с внешними источниками.

Ваше наблюдение о том, что шасси действительно представляет собой единую точку отказа, верно, хотя в наши дни в них встроено большое количество резервов. Все блейд-системы, которые я использовал, имели параллельную подачу питания на блейд-серверы и несколько сетевых разъемов, проходящих по разным путям, а в случае волоконно-оптических каналов - множественные пути от блейд-сервера к оптическим портам на задней стороне стойки. Даже в информационной системе шасси было несколько путей.

При соответствующем проектировании сети (использование избыточных сетевых адаптеров, MPIO для хранения) отдельные проблемы могут быть полностью устранены. За время работы с этими системами у меня были следующие проблемы, ни одна из которых не затрагивала более одного лезвия, если таковая была:

Два блока питания вышли из строя в стойке для лезвий. У остальных 4 было достаточно резервирования, чтобы поддерживать нагрузку.
Потеря фазы для трехфазного источника питания. В наши дни эти поставки редки, но две другие фазы были достаточно мощными, чтобы поддерживать нагрузку.
Потеря петли управления между шасси. Так было в течение многих лет, прежде чем технический поставщик во время другого звонка заметил это.
Полная потеря петель управления между шасси. Мы потеряли доступ к консоли управления, но серверы продолжали работать, как ни в чем не бывало.
Кто-то случайно перезагрузил заднюю сетевую панель стойки. Все в этом шасси использовало резервные сетевые карты, поэтому прерывания обслуживания не возникало; весь трафик переместился на другую объединительную плату.

Точка зрения TomTom относительно стоимости очень верна. Чтобы достичь полного паритета затрат, ваше блейд-шасси должно быть полностью загружено и, вероятно, не использовать специальные устройства, такие как переключатели на задней панели стойки. Стойки для лезвий имеют смысл в тех областях, где вам действительно нужна плотность, потому что вы ограничены в пространстве

Этот вопрос можно распространить на общее хранилище. Опять же, я бы сказал, что нам нужны две единицы хранения вместо одной - и снова производители говорят, что это настолько надежно, что сбоев не ожидается.

Вообще-то, нет. Ваши опасения до сих пор имели смысл, это предложение помещает их в «прочтите материал перед вашими глазами». Высокая доступность с полной репликацией - это известная корпоративная функция для единиц хранения. Дело в том, что SAN (блок хранения намного сложнее, чем шасси для блейд-серверов, которое в конечном итоге представляет собой просто «тупой металл». Все в шасси для блейд-серверов, кроме некоторых объединительных плат, можно заменить - все модули и т. Никто не говорит, что центр лезвий сам по себе обеспечивает высокую доступность лезвий.

Это сильно отличается от SAN, который должен работать 100% времени - в согласованном состоянии - так что у вас есть такие вещи, как репликация и т. Д.

СКАЗАНО: следите за своими числами. Я уже некоторое время подумываю о покупке лезвий, и они НИКОГДА НЕ СДЕЛАЛИ ФИНАНСОВЫЙ СМЫСЛ. Шасси слишком дорогое, а лезвия не дешевле, чем у обычных компьютеров. Я бы посоветовал в качестве альтернативы рассмотреть архитектуру SuperMicro Twin.

Блейд-серверы, с которыми я имел дело, принадлежат IBM. Эти конкретные из них полностью модульны, и в них встроено много избыточности. Итак, если что-то выйдет из строя, это будет один из компонентов, таких как блок питания или модульный коммутатор и т. Д. Но опять же, даже в них есть избыточность.

С тех пор как я работал с блейд-серверами IBM, я раньше не видел полного отказа.

Я подозреваю, что и другие бренды будут построены аналогичным образом.
Было бы неплохо поговорить с продавцом и много почитать.
Это большие инвестиции.

Отказы, приводящие к отключению нескольких блейд-серверов в одном и том же корпусе, сопоставимы (по вероятности и причине) с отказами, ведущими к отключению нескольких серверов в одной стойке.

Первоначальная настройка для минимизации единичных точек отказа (два отдельный Источники питания переменного тока, каждый из которых может обрабатывать всю нагрузку, работающие на отдельные источники питания постоянного тока, так что любая половина может обрабатывать всю нагрузку; два отдельный сетевые подключения, каждое из которых может обрабатывать всю ожидаемую нагрузку и т. д.), и разница между тем, что снимает все блейд-серверы в шасси, или всеми серверами 2U в стойке очень мала.

Проблема, которую я очень часто читаю на разных форумах, заключается в том, что существует теоретическая возможность выхода серверного шасси из строя, что, как следствие, приведет к отключению всех блейд-серверов. Это связано с общей инфраструктурой.

На самом деле! Около 5 лет назад, управляя двумя корпусами HP Proliant p-Class для блейд-серверов, я несколько раз сталкивался с проблемами, связанными с размером корпуса.

У меня были блейд-серверы, которые не могли включиться, если они были выключены (серверы выключаются не часто, но все равно стали для нас реальной проблемой). У меня были серверы, которые внезапно выключались и не могли быть включены снова. В конце концов, у меня отключились все серверы, и я больше не мог их включить.

Насколько я помню, почти все проблемы были связаны с плохими объединительными платами питания или объединительными платами контроллеров. Нам их заменяли несколько раз, и от технических специалистов я получил неконкретное и неофициальное сообщение о том, что у них были свои проблемы с этим поколением корпусов для блейд-серверов.

Тогда я решил, что выгода от блейд-серверов просто не стоит риска, если мне есть что сказать при будущих покупках.

Перенесемся к моему следующему работодателю, да и к моему нынешнему, если на то пошло. У них уже были запущены корпуса HP Proliant c-Class, так что мое теплое чувство к лезвиям не имело значения. За те 5 лет, что я имел дело с корпусами c-Class, я никогда не испытывал ничего подобного, что я испытал с p-Class, когда у меня сломался весь корпус. Они работают без особых проблем.

(За исключением случая, когда из-за дождя пролился дождь через крышу, 4 этажа, небольшую дыру в уплотнении компьютерного зала, по кабелю и в шасси)

В шасси DELL и HP Blade отсутствует дублирующая средняя плоскость. Именно здесь IBM Bladecenter оказывается победителем. Насколько мне известно, это единственное блейд-шасси, которое обеспечивает дублирующую промежуточную плоскость. Хотя HP предлагает фантастический набор программного обеспечения для управления блейд-серверами, мы купили Bladecenter E для нашей компании, чтобы избежать единой точки отказа всего шасси.