Это может показаться странным вопросом, но он вызвал оживленную дискуссию с некоторыми из моих коллег. Рассмотрим RAID-массив среднего размера, состоящий из восьми или двенадцати дисков. При покупке начальной партии дисков или покупке замен для увеличения массива или обновления оборудования можно использовать два основных подхода:
Очевидно, есть некая золотая середина, но это основные противоположные точки зрения. Мне было искренне любопытно, какой подход более разумен с точки зрения снижения риска катастрофического отказа массива. (Давайте определим это как «25% дисков выходят из строя в течение временного окна, равного времени, необходимому для однократного перенастройки массива».) Логика состоит в том, что если все диски были получены из одного и того же места, все они могут иметь одинаковое лежащие в основе дефекты, ожидающие удара. Та же бомба замедленного действия с тем же начальным обратным отсчетом на часах, если хотите.
Я собрал несколько наиболее распространенных плюсов и минусов для каждого подхода, но некоторые из них кажутся домыслами и интуитивным чутьем, а не твердыми данными, основанными на фактах.
Если мы будем использовать только маркированный список, "покупка оптом" явно выигрывает. Но некоторые плюсы слабые, а некоторые сильные. Многие пункты списка просто указывают на логическое обратное по отношению к некоторым другим. Некоторые из этих вещей могут быть абсурдными суевериями. Но если суеверие лучше справляется с поддержанием целостности массива, я думаю, я бы согласился с ним.
Какая группа здесь наиболее разумная?
ОБНОВИТЬ: У меня есть данные, относящиеся к этому обсуждению. Последний массив, который я построил лично (около четырех лет назад), состоял из восьми дисков. Я заказал у одного поставщика, но разделил покупку на два заказа по четыре диска каждый с интервалом примерно в один месяц. Один диск массива вышел из строя в первые часы работы. Он был из первой партии, и окно возврата для этого заказа закрылось за время, необходимое для раскрутки всего.
Четыре года спустя семь оригинальных дисков плюс один замененный все еще работают без ошибок. (постучать по дереву.)
На практике люди, покупающие у корпоративных поставщиков (HPE, Dell и т. Д.) не беспокойся об этом.
Диски этих поставщиков уже распределены между несколькими производителями под одним и тем же номером детали.
Диск HP с определенным SKU может быть HGST, Seagate или Western Digital.
Тот же номер детали HP, вариации от производителя, номера партии и прошивки
Однако вам не следует пытаться перехитрить / перехитрить вероятность сбоя партии. Вы можете попробовать, если это дает душевное спокойствие, но, возможно, это не стоит усилий.
Хорошие практики, такие как кластеризация, репликация и надежное резервное копирование, являются реальной защитой от сбоев пакетов. Добавьте горячее и холодное блюдо. Внимательно следите за своими системами. Воспользуйтесь преимуществами умных файловых систем, таких как ZFS :)
И помните, что отказы жестких дисков не всегда являются механическими ...
Из уважения к ответу ewwhite, некоторые системные администраторы делают заказы партиями. Сам я бы никогда не стал заказывать диски на индивидуальной основе, но стандартными операциями на последнем месте, где я работал в таком объеме, было заказывать диски партиями. Для машины с двенадцатью приводами СОП требовало, чтобы диски были разделены на три партии, что дало машине трехуровневый профиль резервирования.
Однако другие небольшие компании, с которыми я консультировался, следовали другим протоколам, некоторые не касались партии, а другие разделяли партии на два или четыре массива. Короткий ответ делайте то, что считаете подходящим для уровня обслуживания, которого вам нужно достичь.
Примечание: последнее место, где я работал, определенно поступало правильно. Машина для хранения приложений решила выйти из строя на всей партии накопителей, и мы обнаружили, что у этой конкретной партии была одна и та же ошибка. Если бы мы не следовали пакетному протоколу, у нас была бы катастрофическая потеря данных.
Честный ответ от кого-то, кто потратил много времени на умирающие рейдовые массивы и сложные диски: не используйте все свои диски из одной партии, если вы можете этого избежать.
Мой опыт применим только к вращающимся дискам, у SSD есть свои проблемы и преимущества, которые следует учитывать при оптовом заказе.
Точно лучший способ справиться с ситуацией зависит в основном от того, насколько велик массив, с которым вы работаете. Если вы работаете с чем-то вроде 6 дисковых массивов с резервированием 2 дисков, вы, вероятно, можете безопасно купить аналогичные диски у 3 производителей и разделить массив как это.
Если вы используете нечетный диск или работаете с массивами, которые нелегко разделить таким образом, вы можете попробовать другие подходы, например, купить тот же диск у разных поставщиков, или, если вы покупаете оптом, вы можете просмотреть и попытайтесь разделить диски по вероятности совместного производства.
Если вы используете достаточно маленький массив с правильной базовой технологией, возможно, стоит потратить время на его постепенное создание из разнородных дисковых ресурсов. Начните с минимального количества приводов, которое вам может сойти с рук, и купите следующий запас через месяц или два позже или при заполнении системы. Это также позволяет вам почувствовать любые проблемы, которые могут возникнуть с конкретными выбранными вами моделями.
Причина этого совета - сочетание двух причуд влечений.
Среднее время безотказной работы заметно снижается, когда у вас много дисков схожего происхождения. В статистике мы бы назвали это систематической ошибкой выборки, поскольку из-за схожести ваших выборок эффекты усреднения будут менее полезными. Если есть неисправность в партии или даже в самой конструкции, а это происходит чаще, чем вы думаете, то диски из этой партии выйдут из строя раньше, чем можно было бы предположить наработкой на отказ.
Если диски разнесены, вы можете получить [50%, 90%, 120%, 200%] MTBF, но если все диски поступают из этой 50% партии, у вас на руках беспорядок.
Повторная сборка массива Raid убивает диски. Нет, правда. Если произойдет сбой диска и массив будет перестроен, это создаст дополнительную нагрузку на другие диски, пока сканирует данные с них. Если у вас есть диск, близкий к отказу, перестройка вполне может вывести его из строя, или у него уже может быть место сбоя, о котором вы просто не знали, потому что этот раздел недавно не читался.
Если у вас много дисков из одной партии, вероятность возникновения такого каскадного сбоя намного выше, чем вероятность того, что они разные. Вы можете смягчить это, проводя регулярное патрульное сканирование, очистку, повторное обновление, независимо от того, что рекомендуется использовать для типа массива, который вы используете, но обратная сторона этого заключается в том, что это повлияет на производительность и может занять несколько часов.
Для некоторого контекста о том, насколько сильно различается долговечность дисков, Backblaze составляет регулярный отчет о сбоях дисков ... Я никоим образом не связан с компанией, но они должны знать, о чем они говорят по поводу надежности дисков . Примером является https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... ваш набор образцов, вероятно, будет меньше, поэтому внешние данные могут испортить ваш собственный опыт, это все равно хорошая ссылка.
Пару лет назад мне пришлось задуматься над этим вопросом для клиента. У меня есть сочетание практического опыта и исследований, подтверждающее рекомендацию о мультиисточнике.
Отложив на время ваши плюсы и минусы, а также ewwhite отличный ответ, благоразумие подсказывает, что если вы покупаете диски самостоятельно, вы должны использовать их в нескольких источниках. Беглый взгляд на обсуждение слабых мест RAID в Википедии указывает на две интересные ссылки.
Первая ссылка - это документ ACM. RAID: высокопроизводительное и надежное вторичное хранилище (Чен, Ли, Гибсон, Кац и Паттерсон. ACM Computing Surveys. 26: 145-185). В разделе 3.4.4 авторы указывают, что сбои оборудования не всегда являются статистически независимыми событиями, и объясняют, почему. На момент написания этого ответа статья доступна в Интернете; стр. 19-22 обсудить надежность (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889).
Вторая ссылка Отказы дисков в реальном мире: что для вас означает наработка на отказ в 1 000 000 часов? (Шредер, Гибсон. 5-я конференция USENIX по файловым технологиям и технологиям хранения.) Авторы представляют статистические данные, подтверждающие утверждение о том, что сбои дисков могут быть сгруппированы во времени с более высокой скоростью, чем прогнозируется для независимых событий. На момент написания этого ответа этот документ также доступен в Интернете (https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html).
Dell прямо рекомендовала отказаться от RAID 5 еще в 2012 году из-за коррелированных сбоев дисков в больших дисковых средах; Прогнозируется, что RAID 6 станет ненадежным по тем же причинам примерно в 2019 году (статья ZDNet под названием «Почему-raid-6-перестает работать-в-2019»: http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/). Хотя ключевыми элементами обоих из них являются размер диска и время восстановления, меньшие размеры дисков и мультисорсинг был рекомендован в качестве средства устранения проблемы с RAID 5.
Так что да, используйте несколько источников для дисков, если можете; если вы покупаете у корпоративного поставщика, как описано в ewwhite ответ это может происходить для вас прозрачно. Однако ... мой клиент купил 16 дисков емкостью 2 ТБ у корпоративного поставщика. Просто они оказались от одного производителя и производились в одно и то же время. Два диска вышли из строя в течение двух недель после настройки массивов RAID01. Так что проверьте диски, когда получите их. (Вы все равно их проверяете, да?)
Другой потенциальный недостаток индивидуального заказа приводов - упаковка и транспортировка.
Жесткие диски почти никогда не поставляются в розничной упаковке. Если вы покупаете их по одному, продавец почти наверняка их перепакует. Я обнаружил, что эта переупаковка сильно варьируется. Иногда вы получаете красивую коробку с большим количеством набивок, но в других случаях у вас вообще нет прокладки.
Коробка меньшего размера также более уязвима для того, чтобы ее бросили перевозчики без видимых внешних повреждений.
Если вы пытаетесь смягчить сценарий «плохой партии», что означает, что каждый диск в конкретной закупочной партии может / выйдет из строя примерно в одно и то же время, также важно учитывать размер массива и используемый уровень RAID.
Если вы рассматриваете возможность выполнения нескольких заказов, единый стандарт не применим повсеместно. Люди, рекомендующие 2–4 уровня закупки, должны спросить себя, будет ли массив оставаться в сети в случае отказа всего одного уровня дисков? Таким образом, для уровней RAID с избыточностью, таких как 1/5/10/50, вам придется покупать диски по одному. Для RAID6 вы можете купить 2 за раз.
Я бы рекомендовал независимо от того, как вы приобретаете диски, для которых регулярно выполняете резервное копирование, и приобретаете адекватные «горячие / холодные» резервы для вашего размера массива и типа RAID.
Я всегда покупаю б / у / оптом. Заказы, которые я отслеживаю, почти всегда относятся к одной и той же модели устройства, и их использование, по крайней мере, снижает опасения по поводу «плохой партии». В сети так много оборудования, которое распространяется на распродаже, что мне трудно оправдать покупку новых дисков (или чего-то еще в этом отношении), если только оно не предназначено для критически важного оборудования (а все наше оборудование для резервного копирования все еще ремонтируется!)
+ ПРО: Конкурентоспособные онлайн-цены и постоянный поток оборудования из меняющейся бизнес-среды означает, что почти не требуется усилий, чтобы получить 50-80% скидку на рабочую среду.
+ ПРО: Цена Низкая цена освобождает бюджет для перекупов и поддерживает солидный запас оборудования для замены.
+ ПРО: Отношения с продавцами У меня есть несколько онлайн-продавцов, которым я получаю небольшие скидки от уже значительной скидки на восстановленное / использованное оборудование. Обычно этого не происходит с Monoprice, если вы не покупаете в больших количествах или не имеете с ними SLA. Кроме того, особенно с жесткими дисками, просто убедитесь, что вы протестировали их прямо из коробки. У меня никогда не было проблем с продавцом, который не возвращал или не заменял оборудование DOA (если только это не была афера, которую я не смог поймать).
-ПРОТИВ: Гарантия, вопросы легитимности Гарантия зависит от даты производства устройства, вам также нужно будет следить за онлайн-торговцами, пытающимися продать вам ребрендинг, клоны и т. Д.
-ПРОТИВ: Тестирование Необходимо учитывать накладные расходы на тестирование. Тем не менее, вы также должны тестировать новое оборудование, поэтому не уверены, применимо ли это.
-ПРОТИВ: продолжительность жизни сложно судить; немного более подвержен сбоям диска.
Примечание: если это клиентская сборка, и они явно не запрашивают обновление / использование, всегда shiny / new!
Повышение надежности можно получить, используя жесткие диски разных партий и в идеале производителей. Иначе они могут выйти из строя слишком близко по времени. Отличный ответ @Eliodorus это достаточно объясняет.
Конечно, не имеет значения, кто тасует диски. Если ваш провайдер подтвердит, что уже делает это за вас, не о чем беспокоиться. Однако кажется неразумным проводить судебную экспертизу, возможно, даже другого провайдера, и делать вывод, что кто-то делает за вас, если вам не сказали напрямую. Провайдеры обычно не ленятся рекламировать различные меры, которые они принимают для повышения надежности своих приводов.
Собственно, это зависит от Резервный массив недорогих дисков (Рейд) уровень. В Raid два, три, четыре, пять и шесть действительно помогает наличие дисков из нескольких разных партий, но это не имеет решающего значения: один уже по своей сути теряет надежность и производительность при использовании этих уровней.
Теперь, для обычно разумного выбора, использования Raid 1 (зеркальное отображение) или 1 + 0 (чередование зеркал), действительно полезно иметь разные диски на разных сторонах каждого зеркала (каждый массив Raid 1), чтобы не допускать сбоя зеркала во время восстановления. Также должны быть «горячие» резервы, чтобы минимизировать окно восстановления.
Для получения дополнительной информации посетите ироничный, но информативный веб-сайт Battle Against Any Raid ‘F’2 (Baarf), созданный престижным Сетевой дубовый стол старших администраторов баз данных. Википедия также хорошо резюмирует проблему.
Насколько я знаю, проверка качества дискового хранилища на заводе довольно высока, и я лично не боялся бы массового отказа оборудования по производственным причинам.
И если бы я был немного параноиком, я бы просто купил хранилище у двух разных производителей, которые, как я знаю, не имеют общих заводов, у одного и того же поставщика.
Хранение настолько дешево, что для компании не имеет смысла НЕ покупать оптом, и вы внутри компании также спишете хранилище через пару лет, так что вложения не так уж велики. Время, необходимое для покупки у отдельных поставщиков, вероятно, стоит дороже из-за затраченного времени.
Если вы все же боитесь сбоя дисков оптом, покупайте больше, чем вам нужно. Если вы знаете, что вам нужно 12 дисков, купите 5-7 запасных. Это будет всего 48 долларов, умноженных на 5-7 за терабайт, и мы все равно можем пойти дешевле, не делая нашу систему нестабильной или небезопасной, потому что если скидка на оптовые или подержанные диски (почему это безопасно). Чем мы говорим о восстановлении / повторной инициализации массива, теперь у меня, конечно, нет возможности узнать, насколько велико ваше решение для хранения, но если вы потратите недели на эту задачу, я, вероятно, подумал бы о перенастройке организационного хранилища, поскольку это звучит (для меня) больше как промах в конфигурации, чем что-либо еще, так или иначе.
Если мы станем ДЕЙСТВИТЕЛЬНО параноиком, получим вдвое больше любого решения для хранения, которое вы используете, в зависимости от того, насколько чувствительна ваша организация к сбоям в хранении, это может быть дешевле, это вариант не только для компаний из списка Fortune 500.
И мы также можем говорить о загрузке данных, которые нам не нужны здесь и сейчас, таких как (случайный пример) исторические финансовые данные за годы для «облачных» поставщиков, которые мы сначала шифруем. Это устранит потребность в хранении в нашем собственном хранилище, что освободит нас как финансово, так и функционально.
В зависимости от того, кто вы, где находитесь и чем занимаетесь, будут разные решения, которые лучше всего подойдут вам.