Назад | Перейти на главную страницу

что такое URE?

В последнее время я смотрел на RAID5 против RAID6, и я продолжаю видеть, что RAID5 уже недостаточно безопасен из-за рейтингов URE и увеличения размера дисков. По сути, большая часть найденного мной контента говорит о том, что в RAID5, в случае отказа диска, если остальная часть вашего массива составляет 12 ТБ, у вас есть почти 100% шанс встретить URE и потерять свои данные.

Цифра 12 ТБ обусловлена ​​тем, что диски рассчитаны на чтение 10 ^ 14 бит для достижения одного URE.

Что ж, есть кое-что, чего я здесь не понимаю. Чтение выполняется головкой, идущей в секторе, что может привести к ошибке чтения, так это либо головка, либо сектор. также может быть, что чтение не работает по какой-то другой причине (не знаю, например, от вибрации голова подпрыгивает ...). Итак, позвольте мне рассмотреть все 3 ситуации:

Как видите, из 3 выявленных мною точек отказа ни одна из них не имеет смысла. Так что же такое URE, я имею в виду конкретно?

Есть ли кто-нибудь, кто может мне это объяснить?

Редактировать 1

После первой волны ответов, похоже, причина в отказе сектора. Хорошо то, что прошивка, RAID-контроллер и файловая система OS + имеют процедуру для раннего обнаружения этого и перераспределения секторов.

Что ж, теперь я знаю, что такое URE (на самом деле, название говорит само за себя :)).

Я все еще озадачен первопричинами и, в основном, стабильной оценкой, которую они дают.

Некоторые приписали неисправный сектор внешним источникам (космическим волнам), затем я удивлен, что скорость URE в таком случае основана на подсчете считываний, а не на возрасте, космические волны действительно должны сильнее воздействовать на более старый диск просто потому, что он был обнажен. Более того, я думаю, что это скорее фантастика, хотя могу ошибаться.

Теперь приходит другая причина, связанная с износом диска, и некоторые отметили, что более высокие плотности дают более слабые магнитные домены, что совершенно логично, и я бы следил за объяснением. Но Как это хорошо объясняется здесь, новые диски разных размеров получаются в основном за счет установки более или менее одинаковых пластин (а затем одинаковой плотности) в шасси жесткого диска. Секторы одинаковы, и все они должны иметь одинаковую надежность, поэтому диски большего размера должны иметь более высокий рейтинг, чем диски меньшего размера, секторы читаются меньше, это не так. Почему? Тем не менее, это объясняет, почему новые диски с более новой технологией не получают лучшего рейтинга, чем старые, просто потому, что лучший технический выигрыш компенсируется потерями из-за более высокой плотности.

URE - это неисправимая ошибка чтения. Что-то произошло, что привело к сбою чтения сектора, который диск не может исправить. Электроника привода сложна, она передаст данные вверх, только если они смогли правильно прочитать их с диска. Электроника привода несколько раз попытается прочитать сбойный сектор, прежде чем объявить его поврежденным.

Что вызывает ошибку чтения - я здесь не эксперт (следует размахивание руками), но старение диска может привести к тому, что производственные допуски станут актуальными. Магнитные домены могут ослабнуть. Космические лучи могут вызывать повреждения и т.д. По сути, это случайный сбой.

Как это повлияет на RAID 5?

А RAID 5 состоит из чередования уровней блоков с распределенной четностью. Блоки четности вычисляются путем XOR битов из блоков данных вместе. Функция XOR в основном говорит, что если все биты одинаковы, результат равен 0, в противном случае - 1. При вычислении четности вы берете первые 2 бита и выполняете XOR, затем XOR результата со следующим битом и так далее, например.

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

Природа функции XOR такова, что если какой-либо диск выходит из строя и заменяется, данные, которые должны быть на нем, могут быть восстановлены с оставшихся дисков.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

Как видите, поврежденные данные можно восстановить с помощью операции XOR с оставшимися данными и четности.

Как на это влияет URE?

URE имеет значение только во время восстановления RAID 5.

Когда вы реконструируете RAID 5, необходимо выполнить большой объем чтения. Каждый блок данных необходимо прочитать, чтобы восстановить данные на новом диске. Если происходит URE, данные для соответствующего блока не могут быть восстановлены, поэтому ваши данные несовместимы. Для достаточно больших дисков в достаточно большом R5 количество битов, прочитанных для восстановления замененного диска, превышает значение URE, например, 1 бит в 10 ^ 14 чтениях.

Так что же такое URE, я имею в виду конкретно?

Жесткие диски не просто хранят данные, которые вы их запрашиваете. Из-за постоянно уменьшающихся размеров магнитных доменов и того факта, что жесткие диски хранят данные в аналоговом, а не двоичном виде (микропрограмма жесткого диска получает аналоговый сигнал от пластины, который преобразуется в двоичный сигнал, и этот перевод часть секретного соуса производителя), практически всегда есть некоторая степень ошибки при считывании, которую необходимо компенсировать.

Чтобы обеспечить возможность считывания данных, на жестком диске также хранятся данные прямого исправления ошибок вместе с данными, которые вы просили сохранить.

При нормальной работе данных FEC достаточно для исправления ошибок в сигнале, который считывается обратно с пластины. Затем микропрограмма может восстановить исходные данные, и все в порядке. Это исправимая ошибка чтения который отображается в SMART как частота ошибок чтения атрибут (атрибут SMART 0x01) и / или Аппаратный ECC восстановлен (Атрибут SMART 0xc3).

Если по какой-то причине сигнал ухудшается ниже определенной точки, данных FEC больше не достаточно для восстановления исходных данных. На этом этапе, согласно теории, прошивка все еще сможет обнаруживать что данные не могут быть надежно прочитаны, но он ничего не может с этим поделать. Если несколько таких операций чтения завершились неудачно, диск должен каким-то образом сообщить остальной части компьютера, что чтение не может быть выполнено успешно. Он делает это, сигнализируя неустранимая ошибка чтения. Это также увеличивает Сообщенные неисправимые ошибки (Атрибут SMART 0xbb) счетчик.

Неустранимая ошибка чтения или URE - это просто отчет о том, что по какой-либо причине данные полезной нагрузки плюс данные FEC были недостаточны для восстановления первоначально сохраненных данных.

Имейте в виду, что ставки URE статистический. Вы не встретите ни одного жесткого диска, на котором вы можете успешно прочитать ровно 10 ^ 14 (или 10 ^ 15) - 1 бит, а затем следующий бит не сработает. Скорее, это заявление производителя о том, что в среднем, если вы прочитаете (скажем) 10 ^ 14 бит, то в какой-то момент во время этого процесса вы встретите один нечитаемый сектор.

Кроме того, следуя последним нескольким словам выше, имейте в виду, что ставки URE даны с точки зрения секторов на прочитанный бит. Из-за того, как данные хранятся на пластинах, диск не может определить, какая часть сектора является плохой, поэтому, если сектор не проходит проверку FEC, весь сектор считается плохим.

сектор умирает: также полностью невосстановим, но здесь я не понимаю, почему диск 4 ТБ оценивается как 10 ^ 14 для URE, а 8 ТБ также оценивается в 10 ^ 14 для URE, что означало бы, что сектора на 8 ТБ (скорее всего, более новая технология) вдвое менее надежны, чем те, что на 4 ТБ, что не имеет смысла.

Спецификация обычно "в среднем 1 при чтении обнаружена ошибка п бит », поэтому размер диска не имеет значения. Это имеет значение, если вы рассчитываете свой риск возникновения ошибки на вашем диске и рабочей нагрузке, но производитель только заявляет, что для этого требуется п считываются биты для поиска ошибки (в среднем, не гарантируется).

Пример: если вы покупаете диск емкостью 1 ТБ, вам придется прочитать его около 12 раз, чтобы найти ошибку, в то время как диск объемом 8 ТБ может столкнуться с ней при втором чтении, но количество прочитанных бит одинаково оба раза, поэтому качество магнитных шпинделей примерно одинаковы.

За повышенную цену вы платите и другие факторы: возможность втиснуть 8 ТБ в физическое пространство размером 1 ТБ, значительно сниженное потребление энергии, меньшее количество сбоев при перемещении диска и т. Д.

Я думаю, что @Michael Kjörling ответил четко.

Когда диск читает, головка определяет направление магнитного домена, затем отправляет некоторый электронный сигнал, который является аналоговым. Мы предполагаем, что микропрограмма должна выдавать 1, когда получает напряжение выше 0,5 В, но магнитное поле слишком слабое, поэтому головка отправляет сигнал только с напряжением 0,499 В, возникает ошибка. Нам нужен FEC для исправления этой ошибки.

Вот пример: данные сектора должны быть 0x0F23, мы кодируем его с помощью 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30. теперь мы получаем FEC и записываем его после сектора. Когда мы читаем, мы читаем 0x0E23 и FEC 0x30, это не совпадает. После некоторых вычислений мы обнаружили, что это должно быть 0x0F23. Но если у нас есть 0x0E13 и 0x30, ИЛИ мы получили 0x0E23 и 0x32, мы не сможем вычислить правильный.

Этот рейтинг настолько низок, что, возможно, если производитель жестких дисков не читает PB, когда-либо данные EB могут получить стабильное значение. Таким образом, они выдают значение вероятности: когда вы читаете данные размером 10 ^ 14 бит, вы можете столкнуться один раз. Поскольку это значение вероятности, возможно, вы воспользовались после того, как прочитали данные всего 1 сектора, возможно, вы столкнулись, пока не прочитали данные 50 ТБ. И это значение не имело ничего общего с емкостью диска, это просто случайная проблема с размером данных, которые вы читаете. Если вы прочитаете диск емкостью 4 ТБ, заполненный данными 6 раз, этот шанс будет равен чтению диска 6 ТБ 4 раза или чтению диска 8 ТБ 3 раза.