Скажем, я собираюсь построить очень большой zpool размером 1 ПБ. У меня будет головное устройство с HBA внутри (возможно, 4-портовые карты LSI SAS), и у меня будет, возможно, 7 JBOD с 45 дисками, прикрепленных к головному устройству.
Основной способ сделать это с помощью raidz3 - создать 21 различный vdev raidz3 с 15 дисками (3 vdev с 15 дисками для каждого из 7 JBOD) и просто создать пул из всех 21 vdev raidz3.
Это сработает нормально.
Проблема здесь в том, что если вы потеряете один vdev по какой-либо причине, вы потеряете весь пул. Это означает, что вы никогда не можете потерять весь JBOD, так как потеряны 3 vdev. НО, в ветке списка рассылки кто-то загадочно намекнул на способ организации дисков таким образом, чтобы вы действительно могли потерять весь JBOD. Они сказали:
«Используя головное устройство Dell R720, плюс несколько JBOD Dell MD1200, подключенных к паре коммутаторов LSI SAS ... Мы сделали тройную четность, и наше членство в vdev настроено таким образом, что мы можем потерять до трех JBOD и при этом остаться функциональный (один диск-член vdev на каждый JBOD) ".
... и я не совсем понимаю, что они здесь говорят. я считать они говорят, что вместо того, чтобы иметь vdev (все смежные 15 (или 12, или любые другие) диски на одном HBA), у вас фактически есть диски четности для vdev, разделенные на другие JBOD, так что вы можете потерять любой jbod и у вас все еще есть диски N-3, чтобы покрыть этот vdev ...
Или что-то...
Два вопроса:
Кто-нибудь знает, как выглядит рецепт этого
Достаточно ли он сложен, чтобы вам действительно нужен коммутатор SAS, и я не мог просто установить его с помощью сложных кабелей HBA <--> JBD?
Спасибо.
Объяснение устойчивости JBOD, о котором вы читаете в списке рассылки, вероятно, представляет собой что-то вроде набора vdev и корпусов RAIDZ3 ... Скажем, 8 дисков на RAIDZ3 (5 + 3) и 5 (или 8?) Корпусов, так что vdev состояли из одного диска из каждого корпуса.
Но, честно говоря, я бы не стал делать 1 ПБ памяти без некоторой степени высокой доступности ...
Вот несколько эталонных проектов для надлежащего кластера высокой доступности с двумя HBA-адаптерами на головной узел и резервными каскадными кабелями SAS. Если бы я проектировал это, я бы планировал использовать ZFS зеркало развертывание вместо RAIDZ (1/2/3).
Я считаю, что ограничения массивов RAIDZ мешают в большинстве производственных ситуаций; отсутствие возможности расширения, низкая производительность, сложное планирование и больше сложное устранение неисправностей.
Я бы использовал зеркала ZFS и максимально большие корпуса (например, 60-дисковый или 70-дисковый единиц), диски SAS и избегайте оборудования Supermicro;)
За гранью этого, качественные блоки JBOD очень устойчивы, поскольку имеют внутреннее резервирование, двухканальные объединительные платы и сборки промежуточных плат, которые обычно не выходят из строя. Большинство компонентов поддерживают горячую замену. Я бы меньше беспокоился о корпусах и больше о кабелях, контроллерах и дизайне бассейна.
если ты должен используйте RAIDZ (1/2/3), настройте по мере необходимости и сохраните запасные диски в каждом JBOD. Настройте их также как глобальные запасные части.
Двойной узел:
Один узел: