Назад | Перейти на главную страницу

Быстрый метод определения состояния SSD-диска?

У меня есть диск Intel X-25M, который дважды был помечен как "сбойный" в массиве хранения ZFS, как отмечалось Вот. Однако после извлечения диска кажется, что он монтирует, читает и записывает на других компьютерах (Mac, ПК, USB-корпус и т. Д.)

Есть ли хороший способ определить текущее состояние диска? Я считаю, что предыдущий сбой в решении ZFS был результатом слияния ошибок, плохих отчетов об ошибках и оборудования. Хотя, похоже, в этом драйвере есть немного жизни.

Хороший, но не безошибочный способ проверки состояния любого диска - это проверка атрибутов SMART.

Ниже приведен набор атрибутов SMART для диска Intel X25-M G2 160 ГБ, полученный с использованием smartctl v5.41. (Версия важна, более ранние версии smartctl имели разные сопоставления имен атрибутов и на самом деле неправильно понимали конкретную таблицу для этого диска).

# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED     RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4076
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       67
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       30
225 Host_Writes_32MiB       0x0030   200   200   000    Old_age   Offline      -       148418
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       755
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       49
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       16956537
232 Available_Reservd_Space 0x0033   099   099   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   098   098   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   099    Pre-fail  Always       -       0

Это показывает, что у накопителя был 1 перераспределенный сектор, использован 1% доступного зарезервированного пространства (атрибут 232) и 2% запланированных циклов программы / стирания (атрибут 233). В него было записано 148418 * 32 МБ (атрибут 225).

Если на диске отображается какое-либо значительное количество перераспределенных секторов, это может быть поводом для беспокойства, поскольку это, вероятно, указывает на неисправный чип флэш-памяти (так же, как значительное количество перераспределенных секторов на вращающемся диске обычно указывает на поверхностные ошибки. ). Сквозные ошибки тоже плохи - у меня было несколько дисков X25-M G2 160 ГБ, которые выходили из строя с большими (> 1000) отчетами о сквозных ошибках. На самом деле для этих дисков присутствует только два полезных атрибута состояния ошибки, поскольку большинство полезных атрибутов SMART для обычных дисков не применимы к твердотельным накопителям.

Однако SMART обычно не считается 100% надежным. Исследование Google по отказы дисков обнаружили, что, несмотря на наличие хорошей корреляции между различными индикаторами раннего предупреждения SMART и отказом диска, этот инструмент не является полезным инструментом для прогнозирования отказа отдельного диска. По этой причине я обычно использую SMART как способ доказать, что диск неисправен (если появляются ошибки, он, вероятно, скоро выйдет из строя), вместо того, чтобы доказать, что диск все еще исправен.

Хотя она предназначена для «традиционных» жестких дисков, утилита «badblocks» может принести некоторую пользу, поскольку предназначена для работы со всеми отображаемыми секторами на диске. Благодаря предотвращению фрагментации SSD и внутренним переназначениям он не сможет сказать вам наверняка, что диск в порядке. Однако, если он скажет вам, что диск неисправен, я бы наверняка выбросил его как мертвый.

HD TuneHD Tune Pro) - отличные инструменты для измерения исправности и производительности вашего SSD-накопителя. Бесплатная версия (HD Tune) имеет очень ограниченный набор функций, но в нее входит анализ работоспособности, так что вам повезло. У версии Pro есть 15-дневный пробный период, который я настоятельно рекомендую попробовать, он даст вам отличный, глубокий анализ работы вашего SSD.

Для меня, когда "Reallocated_Sector_Ct" не равно нулю, я заменяю диск

Reallocated_Sector_Ct - это пул секторов, которые диск резервирует для замены поврежденных секторов. Раньше на диске всегда было несколько сбойных секторов в первый день, и затем диск мог их заменить, и у вас был 100% рабочий диск.

В наши дни диски намного сложнее, поэтому обычно такая замена начинается только тогда, когда диск начинает выходить из строя.

Это очень сильное упрощение, но вы понимаете.

Альтернативной стратегией было бы следить за числом и проверять, не растет ли оно. Но часто, когда диск начинает выходить из строя, вы всего в нескольких минутах ходьбы от катастрофического отказа. Так что, учитывая сегодняшнюю цену дисков, я предпочитаю их выбросить, чем рискую.

Я никогда не терял данные из-за сбоя диска.