Назад | Перейти на главную страницу

Высокая частота отказов больших дисков?

Недавно я развернул сервер с 5 дисками по 1 ТБ (не буду упоминать их бренд, но это был один из двух больших). Изначально меня предостерегали от приобретения дисков большой емкости, так как друг посоветовал мне, что у них очень низкая наработка на отказ, и мне лучше было бы покупать больше дисков меньшей емкости, поскольку они не `` доводятся до предела '' с точки зрения того, что технология может справиться.

С тех пор три из пяти дисков вышли из строя. К счастью, я смог заменить и перестроить массив до того, как следующий диск вышел из строя, но это меня очень сильно обеспокоило.

Что ты думаешь? Я только что получил их плохой партией? Или более новые диски или диски большей емкости выходят из строя с большей вероятностью, чем проверенные и проверенные диски?

Вероятно, у вас плохая партия. Я нервничаю по поводу развертывания массивов, созданных из дисков из одной партии, по этой причине - они, вероятно, будут иметь одинаковый срок службы, что делает получение замены потенциально очень интересным, когда один из них выходит из строя.

Не исключено, что в приводах есть дефект конструкции, который определенно случался раньше; однако обычно Интернет полон жалоб на привод, если с ним действительно что-то не так, в отличие от обычного фонового шума, который вы можете встретить по любому поводу.

На этот вопрос сложно ответить, если у вас нет ресурсов крупной организации. Видеть Исследование Google сбоев жесткого диска.

При покупке значительного количества дисков я буду определять приблизительный размер диска с наименьшей стоимостью байта, который обычно на одно поколение старше последнего. Это имеет смысл, что они улучшат надежность этого поколения.

Чем больше пластин + больше головок, тем выше вероятность отказа.

Возьмите два обычных жестких диска WD

640 ГБ = две пластины
1 ТБ = три пластины

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Эта дополнительная пластина = больше шума, больше энергии, больше тепла, медленнее время готовности привода, больше подверженности ударам и больше вибрации.

Если бы они сделали такую же конструкцию накопителя с одним диском, у него были бы еще лучшие характеристики. В данном случае это диски потребительского уровня, но это диски высшего класса с двойной кэш-памятью и 5-летней гарантией. Вы увидите подобную математику, если внимательно изучите документацию на любой бренд или стиль традиционных жестких дисков (вращающихся пластин). Это чисто физический вопрос, что чем больше пластин, тем менее надежен привод.

Джефф Хенгесбах также был прав, когда сказал

Основная проблема с «большими» дисками - это время восстановления после сбоя. Чем больше диск, тем дольше восстановление, тем больше окно для отказа дополнительного диска и потенциальной потери массива. В случае «больших» дисков ценность доступности для бизнеса должна определять уровень приемлемого риска (потеря массива), который будет определять ваш выбор уровня RAID и количество дисков (больше дисков = больше шансов сбоя диска).

добавить небольшую дозу Грэма Перроу

Диск с пятьюдесятью миллионами секторов имеет в десять раз больше шансов иметь плохой сектор, чем диск с пятью миллионами секторов. Я предполагаю, что частота отказов между большими и маленькими дисками здесь одинакова, что, вероятно, не является хорошим предположением.

Больше пластинок = плохо
Больше места для хранения вещей неоднозначно. Плюсы и минусы этого многочисленны.
Чем больше секторов, тем больше вероятность ошибок. Не обязательно линейный по масштабу, но определенно фактор.

Если вам не нужно больше места, чем надежность, я бы посоветовал использовать диски с одной или двумя пластинами. Требуются исследования и в некоторых случаях удача, чтобы узнать, что вы получите при заказе дисков, поскольку некоторые производители не только избегают публикации количества пластин, они могут фактически продавать более одного диска с одним и тем же номером детали.

Возьмем, к примеру, WD3200AAKS, есть версия с одной пластиной на 320 ГБ и версия с двумя пластинами на 320 ГБ (160 ГБ x 2). Вдобавок ко всему используется несколько этикеток и корпусов для дисков, поэтому вы не можете легко посмотреть на диск и узнать, какая пластина находится внутри. Единственный способ узнать это - поискать в Интернете, чтобы узнать, что WD3200AAKS-00B3A0 и WD3200AAKS-75VYA0 сообщают вам, какая пластина одинарная, но ни один продавец не скажет вам, что вы получите.

Я считаю, что более высокая, чем обычно, частота отказов свидетельствует о любой новой технологии. Мне всегда говорили никогда не покупать машину первого года выпуска, ждать, пока они не исправят ошибки. Я бы сказал, что то же самое, вероятно, справедливо и для многих других вещей, включая жесткие диски.

Я не уверен, что можно сказать, что «большие» диски имеют более высокую наработку на отказ или нет. У меня есть известная система с несколькими дисками емкостью 750 ГБ, и за последние 2+ года ни один из них не отказал (750 были «большими» 2 года назад). Но я также знаю систему с большим именем, которая была создана, когда 250 ГБ были большими, и этот массив несколько раз падал. Дебаты о MTBF - это что-то вроде священной войны.

Основная проблема с «большими» дисками - это время восстановления после сбоя. Чем больше диск, тем дольше восстановление, тем больше окно для отказа дополнительного диска и потенциальной потери массива. В случае «больших» дисков ценность доступности для бизнеса должна определять уровень приемлемого риска (потеря массива), который будет определять ваш выбор уровня RAID и количество дисков (больше дисков = больше шансов сбоя диска).

Деловые SATA / RAID получили широкое распространение за последние несколько лет. Я не думаю, что громкие имена предложили бы это, если бы знали, что это будет серьезной проблемой поддержки или источником разочарования клиентов. Мне было бы любопытно узнать о вашей надежности в будущем, когда вы заменили часть оригинальной партии.

Все ли они на одном компьютере или контроллере диска? Вы сказали, что вам нужно перестроить массив. Если это так, то может что-то не так с контроллером, блоком питания или памятью. В противном случае я бы также предположил неисправную партию дисков. Кроме того, может возникнуть проблема совместимости с любыми конкретными дисками, которые вы используете с этим конкретным контроллером.

Кроме того, мне интересно, когда люди говорят, что диски большего размера имеют более высокое значение MTBF, как это рассчитывается. Допустим, у вас есть диски 2x250 ГБ и 1x500 ГБ. Может быть, это наивно, но разве на диске, который вмещает вдвое больше, не будет больше данных, с которыми он может выйти из строя? Думаю, я не знаю, включает ли MTBF неправильное чтение или неправильную запись, или это означает, что диск становится механически сломанным. Кто-нибудь знает, есть ли строгий отраслевой стандарт и определение MTBF для жестких дисков?

Вот несколько вещей, которые я бы проверил: 1) Достаточно ли близки серийные номера на дисках? В таком случае у вас может быть неисправный пакет. 2) Какова среда, в которой находится ваш сервер? Были ли у вас проблемы с другим оборудованием в последнее время? 3) Это диски Seagate Barracuda? С этими дисками есть проблемы. Посмотри это статья в компьютерном мире в теме. 4) Эти диски были частью системы? или вы сами их купили? Если вы купили OEM-диски, невозможно гарантировать, что с дисками обращались с осторожностью перед покупкой.

Мне лично невероятно повезло с жесткими дисками. У меня вышло из строя только два диска. Только один из этих сбоев произошел на диске, который я фактически использовал. Однако повсюду я видел, как многие люди теряют данные на жестких дисках.

Более высокая частота отказов больших дисков может зависеть только от их размера. Диск с пятьюдесятью миллионами секторов имеет в десять раз больше шансов иметь плохой сектор, чем диск с пятью миллионами секторов. Я предполагаю, что частота отказов между большими и маленькими дисками здесь одинакова, что, вероятно, не является хорошим предположением - как кто-то сказал, тот факт, что терабайтные диски все еще относительно новые, у них, вероятно, более высокая частота отказов для начинать с.

В вашем случае это просто звучит как плохая партия дисков.

Если вы купили все диски в одно и то же время в одном месте, возможно, все они поступили из одной сомнительной партии.

При сборке RAID-массива я обычно рекомендую немного смешивать диски, то есть смесь производителей или, по крайней мере, дисков от разных поставщиков (чтобы снизить риск того, что все диски будут из одной плохой партии).

Еще одна рекомендация, которую я бы сделал, - по возможности использовать диски меньшего размера (то есть у вас есть физическое пространство для дисков и портов контроллера, чтобы их повесить), поэтому вместо тома RAID 1 или двух дисков 1 ТБ используйте RAID 10 из четырех блоков по 500 ГБ. Таким образом, когда диск выходит из строя, вы восстанавливаете только меньший массив, который является частью большего массива, вместо того, чтобы перестраивать весь массив (сокращая время, в течение которого массив не был завершен), а также предлагает немного больше избыточности (в четырех из шести сценариев «сразу два диска выходят из строя» будет работать массив RAID10 из четырех дисков). Вы можете сделать то же самое с объединением меньших массивов R5 в массив R50, если это поддерживается вашим RAID-контроллером / программным обеспечением.

Возможно, я чрезмерно параноик, но я бы опасался доверять 1 ТБ данных одному диску, даже если этот диск является частью избыточного массива.

Очевидно, что существуют физические ограничения, которые могут сделать эту технику непрактичной для вас, также ограничивает потребление энергии, так что YMMV. Как "например", когда массив или массивы не Практично: я бы предпочел иметь четыре диска в качестве R10 на одном из наших серверов вместо больших дисков в массиве R1, но на нем физически нет места, покупка / строительство внешнего массива выходила за рамки бюджета, и мы не мог использовать пространство в существующем массиве, поскольку данные приходилось физически хранить отдельно от всех других данных из-за требований защиты данных.

Кто-то очень подробно изучил проблему больших дисков. Это связано с тем, что частота ошибок по битам остается постоянной, даже если размер диска увеличился, плюс больше времени, необходимого для восстановления более крупных дисков. Эти два фактора объединяются, чтобы превратить вторую неудачу во время перестройки в реальность. Я бы выбрал диски объемом 500 ГБ или меньше на RAID-массивах.

Всегда используйте жесткие диски меньшей емкости для производственных целей. Никогда не проверял физику, стоящую за этим, но диски меньшего размера просто имеют тенденцию ломаться реже. Это то, что мне всегда говорили.

Вы создали массив с дисками из одной партии и от одного поставщика? Мне сказали, что это плохо ...

Рассмотрим RAID-6. Вероятность жесткой ошибки чтения при реконструкции RAID-5 вполне реальна. Или RAID-Z с ZFS.