Назад | Перейти на главную страницу

Сколько перераспределений SMART-секторов указывают на проблемы?

У меня есть устройство NAS, которому чуть больше месяца. Он настроен на отправку мне по электронной почте предупреждений, созданных на основе данных SMART жестких дисков. Через день один из жестких дисков сообщил, что сектор вышел из строя и был перераспределен. За первую неделю это число выросло до шести секторов для рассматриваемого жесткого диска. Через месяц число перераспределенных секторов составит девять. Скорость определенно, похоже, замедляется.

NAS сконфигурирован с шестью дисками по 1,5 ТБ в конфигурации RAID-5. С дисками такой большой емкости я ожидал, что сектор будет время от времени выходить из строя, поэтому меня не беспокоило, когда были перемещены первые несколько секторов. Однако меня беспокоит то, что ни один из других дисков не сообщает о каких-либо проблемах.

С какой скоростью перемещений или общим числом перемещений я должен начать беспокоиться о состоянии диска? Может ли это зависеть от емкости накопителя?

Перечитывая статью Google по этому поводу "Тенденции отказов при большом количестве накопителей", Я думаю, что могу с уверенностью сказать, что ответ Адама неверен. В их анализе чрезвычайно массивной совокупности накопителей примерно 9% имели ненулевое количество перераспределений. Яркая цитата такова:

После первого перераспределения вероятность отказа дисков в течение 60 дней более чем в 14 раз выше, чем у дисков без счетчиков перераспределения, что делает критический порог для этого параметра также единым.

Это еще более интересно при работе с «автономными перераспределениями», которые обнаруживаются во время фоновой очистки диска, а не во время фактических запрошенных операций ввода-вывода. Их вывод:

После первого перераспределения в автономном режиме вероятность отказа дисков в течение 60 дней в 21 раз выше, чем у дисков без перераспределения в автономном режиме; эффект, который снова более резкий, чем полное перераспределение.

Моя политика с этого момента будет заключаться в том, что диски с ненулевым счетчиком перераспределения должны планироваться для замены.

Приводы, как и большинство компонентов, имеют частоту отказов кривой ванны. Они часто терпят неудачу вначале, имеют относительно низкую частоту отказов в середине, а затем часто терпят неудачу по мере того, как достигают конца своей жизни.

Подобно тому, как весь диск следует этой кривой, определенные области диска также будут следовать этой кривой. Вы увидите много перераспределений секторов в начале использования диска, но это должно постепенно уменьшаться. Когда диск в конце срока службы начинает выходить из строя, он начинает терять все больше и больше секторов.

Вам не нужно беспокоиться о 6 (в зависимости от диска - проконсультируйтесь с производителем), но вам нужно смотреть и видеть частоту каждого нового перераспределения. Если ухудшение ускоряется или остается неизменным, беспокойтесь. В противном случае после первоначального периода обкатки все должно быть в порядке.

-Адам

У разных дисков наверняка разные параметры. На диске, который я в последний раз проверял и представлял собой диск корпоративной серии емкостью 1 ТБ от одного производителя, было зарезервировано 2048 секторов для перераспределения.

Вы можете оценить количество зарезервированных секторов, посмотрев в S.M.A.R.T. отчет о диске, который имеет ненулевое количество перераспределенных секторов. Рассмотрим отчет о неисправном диске ниже.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Здесь использовано 95% зарезервированной емкости, что составляет 1955 секторов. Следовательно, начальная емкость была около 2057. Фактически это 2048, разница из-за ошибки округления.

S.M.A.R.T. переводит диск в состояние отказа, когда количество перераспределенных секторов достигает определенного порога. Для рассматриваемого диска этот порог установлен на уровне 64% от зарезервированной емкости. Это примерно 1310 переназначенных секторов.

Однако зарезервированные секторы не лежат в непрерывном промежутке. Вместо этого они разбиты на несколько групп, каждая из которых используется для переназначения секторов из определенной части диска. Это сделано для того, чтобы данные оставались локальными в определенной области на диске.

Обратной стороной локальности является то, что на диске может быть много зарезервированных секторов. Однако в одной области может уже закончиться зарезервированная емкость. В этом случае поведение зависит от прошивки. На одном диске мы наблюдали, что он переходит в состояние FAILED и блокируется при возникновении ошибки в части, которая больше не защищена.

Возможно, вы захотите запустить S.M.A.R.T. длительное самотестирование, если накопитель это поддерживает. Это может дать вам больше информации о состоянии диска. Если ваш NAS не может этого сделать, и если вы можете вытащить диск или выключить NAS на несколько часов, вы можете провести длительную самопроверку с жестким диском, подключенным к другой машине.

Когда новый диск ведет себя так, ему вообще нельзя доверять!

Отправьте его как можно скорее и получите новый диск.

У разных производителей разные цифры «приемлемых потерь» (то же самое, что и с мониторами и плохими пикселями). Обратитесь к производителю привода, чтобы узнать его стандарт.

Хотя это выглядит плохой тенденцией ...

Western Digital особенно гордится технологией, которая восстанавливает сбойный сектор за приемлемое время вместо замораживания диска, помещенного в RAID, ее название TLER (http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery). Время обычно составляет 5..7 секунд.

Как я обнаружил в Интернете, есть диски WD с отключенной опцией, но некоторые люди включили эту функцию на дешевых дисках Green WD, а затем поместили их в RAID.

Утилита WDTLER удалена с сайта поддержки WD, но ее легко найти через Google.

P.S. Я использую эту утилиту только для чтения статуса и сейчас не использую RAID :)