Понимание доступности дискового массива

Я новичок в этом, поэтому я пытаюсь понять, как рассчитать доступность дискового массива (DAA).

До сих пор я понял, что доступность всегда равна 1, а отказ = 1 ÷ MTBF, и это все, что я мог понять с утра.

Предположим, у меня есть 1 ТБ и время составляет 5 лет, а среднее время безотказной работы диска составляет 1,6 миллиона часов (получено с веб-сайта Dell для диска со скоростью 15 000 об / мин), мне нужно знать доступность этого диска через 5 лет, как я могу рассчитать, какова формула, я вижу MTTR, MTTDL и некоторые другие MTT и путаюсь.

Другая проблема заключается в том, что доступность дискового массива связана только с RAID.

Может ли кто-нибудь объяснить простым английским языком, как рассчитать DAA.

Цените помощь.

В настоящее время я использую это как ссылку: http://www.ecs.umass.edu/ece/koren/architecture/Raid/reliability.html (в этой ссылке есть только формула с минимальным объяснением или без него)

Если кто-нибудь знает какую-либо другую хорошую ссылку, которая объясняет на простом английском языке.

Спасибо

raid storage-area-network

MTBF - это просто статистика. Это не поможет вам с тем, что вы пытаетесь предсказать. По моему опыту работы с различными дисками от различных производителей в течение 20 лет, оборудование корпоративного уровня обычно служит намного дольше, чем вы когда-либо хотели бы даже взглянуть на него в типичной среде. Да, у вас всегда будет 10% отказов всего, но именно для этого нужны RAID и резервное копирование.

Тем не менее, оборудование потребительского уровня в корпоративных средах имеет тенденцию выходить из строя сразу после того, как вы думаете (то есть вскоре после истечения срока гарантии). Но если вы используете диски WD Black / Gold или Seagate Enterprise и т. Д., Вы собираетесь избавиться от них, потому что они бесполезно малы / медленны задолго до того, как перестанут вращаться. У SSD есть дополнительное преимущество: они сообщают вам, сколько у них осталось жизни, вот и все.

Очевидно, что DAA связан только с RAID-массивами, поскольку это избыточный массив независимых дисков.

Что касается MTBF, вот некоторая информация от Hitachi:

«Целевое значение MTBF основано на выборке и оценивается с помощью статистических измерений и алгоритмов ускорения при средних условиях эксплуатации. Значения MTBF не предназначены для прогнозирования надежности отдельного диска. Среднее время безотказной работы не является гарантией».

Для HDD лучше использовать AFR - Annualized Failure Rate (https://en.wikipedia.org/wiki/Annualized_failure_rate)

WD просто перестала использовать спецификации MTBF / MTTF только из-за неясности и непонимания заявлений.

Вы не можете рассчитать реальный срок службы жесткого диска только из-за множества факторов, влияющих на надежность, таких как:

1) Температура

2) Циклы включения / выключения

3) Интенсивные записи / чтения

4) или даже выпуск программного или аппаратного обеспечения от производителя

Среднее время наработки на отказ в 1,6 миллиона часов составляет 182 года, а это означает, что если вы используете 182 диска в течение года, весьма вероятно, что по крайней мере один выйдет из строя. Годовая интенсивность отказов обратна этому в единицах «количество отказов в час» в годовом исчислении.

Производители могут завышать MTTF:

Данные Backblaze за 2018 год показывают, что годовая частота отказов 1,25% или около 110 лет наработки на отказ
ServeTheHome предполагает 5 лет
Докладчик на конференции разработчиков хранилищ Предполагается, что среднее время безотказной работы составляет 34 года (4% годовой нормы отказов)

Возможно, это имеет какое-то отношение к потребительским дискам по сравнению с корпоративными дисками, но с тем же успехом можно не рисковать своими данными.

Среднее время ремонта (MTTR) - это типичное время, необходимое для полного ремонта, включая замену диска и восстановление. Это сильно варьируется: от дней на то, чтобы заметить и заменить диск, до нуля с горячим резервом, который уже является членом массива.

Таким образом, потеря данных - это когда количество отказов превышает избыточность массива. Например, вторичный сбой при деградации массива. Режимы отказа и формулы зависят от уровня RAID.

RAID 5 будет вторым отказом на любом диске. Первый отказ - это MTTF, разделенное на количество дисков. Но второй должен быть в пределах деградированного окна, вероятность которого ( MTTR ) / ( MTTF / number of drives - 1 ). Умножьте оба вместе, и вы получите шанс отказа вторичного диска.

Это был отказ полного привода. Неустранимые (также известные как неисправимые) ошибки чтения также могут быть значительными. Segate ST8000DM002, который нравится Backblaze, имеет размер 8 ТБ и ошибку чтения каждые 10 ^ 14 бит. (Они измерили AFR 0,94%.) Это означает, что полное чтение диска, вероятно, будет иметь неисправный сектор в 64% случаев. На практике диски могут превышать эту спецификацию, особенно если они не очень старые. URE могут не иметь значения, если в массиве есть избыточность, и могут ее исправить. Или массив возвращает только один сбойный сектор, который файловая система все равно не использовала. Или если он попал в неважный файл. Гораздо более проблематично, если это приведет к полному отказу массива.

Дальнейшее чтение:

Практически всегда создавайте резервную копию, внешнюю по отношению к массиву, с периодичностью, требуемой для точки восстановления. Избыточность массива предназначена для сокращения времени восстановления после сбоев дисков и не защитит вас от всех сценариев потери данных.