У меня есть диск Intel X-25M, который дважды был помечен как "сбойный" в массиве хранения ZFS, как отмечалось Вот. Однако после извлечения диска кажется, что он монтирует, читает и записывает на других компьютерах (Mac, ПК, USB-корпус и т. Д.)
Есть ли хороший способ определить текущее состояние диска? Я считаю, что предыдущий сбой в решении ZFS был результатом слияния ошибок, плохих отчетов об ошибках и оборудования. Хотя, похоже, в этом драйвере есть немного жизни.
Хороший, но не безошибочный способ проверки состояния любого диска - это проверка атрибутов SMART.
Ниже приведен набор атрибутов SMART для диска Intel X25-M G2 160 ГБ, полученный с использованием smartctl v5.41. (Версия важна, более ранние версии smartctl имели разные сопоставления имен атрибутов и на самом деле неправильно понимали конкретную таблицу для этого диска).
# ./smartctl -data -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.18-194.32.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0020 100 100 000 Old_age Offline - 0
4 Start_Stop_Count 0x0030 100 100 000 Old_age Offline - 0
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 1
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4076
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 67
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 30
225 Host_Writes_32MiB 0x0030 200 200 000 Old_age Offline - 148418
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 755
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 49
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 16956537
232 Available_Reservd_Space 0x0033 099 099 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 098 098 000 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 099 Pre-fail Always - 0
Это показывает, что у накопителя был 1 перераспределенный сектор, использован 1% доступного зарезервированного пространства (атрибут 232) и 2% запланированных циклов программы / стирания (атрибут 233). В него было записано 148418 * 32 МБ (атрибут 225).
Если на диске отображается какое-либо значительное количество перераспределенных секторов, это может быть поводом для беспокойства, поскольку это, вероятно, указывает на неисправный чип флэш-памяти (так же, как значительное количество перераспределенных секторов на вращающемся диске обычно указывает на поверхностные ошибки. ). Сквозные ошибки тоже плохи - у меня было несколько дисков X25-M G2 160 ГБ, которые выходили из строя с большими (> 1000) отчетами о сквозных ошибках. На самом деле для этих дисков присутствует только два полезных атрибута состояния ошибки, поскольку большинство полезных атрибутов SMART для обычных дисков не применимы к твердотельным накопителям.
Однако SMART обычно не считается 100% надежным. Исследование Google по отказы дисков обнаружили, что, несмотря на наличие хорошей корреляции между различными индикаторами раннего предупреждения SMART и отказом диска, этот инструмент не является полезным инструментом для прогнозирования отказа отдельного диска. По этой причине я обычно использую SMART как способ доказать, что диск неисправен (если появляются ошибки, он, вероятно, скоро выйдет из строя), вместо того, чтобы доказать, что диск все еще исправен.
Хотя она предназначена для «традиционных» жестких дисков, утилита «badblocks» может принести некоторую пользу, поскольку предназначена для работы со всеми отображаемыми секторами на диске. Благодаря предотвращению фрагментации SSD и внутренним переназначениям он не сможет сказать вам наверняка, что диск в порядке. Однако, если он скажет вам, что диск неисправен, я бы наверняка выбросил его как мертвый.
HD Tune (и HD Tune Pro) - отличные инструменты для измерения исправности и производительности вашего SSD-накопителя. Бесплатная версия (HD Tune) имеет очень ограниченный набор функций, но в нее входит анализ работоспособности, так что вам повезло. У версии Pro есть 15-дневный пробный период, который я настоятельно рекомендую попробовать, он даст вам отличный, глубокий анализ работы вашего SSD.
Для меня, когда "Reallocated_Sector_Ct" не равно нулю, я заменяю диск
Reallocated_Sector_Ct - это пул секторов, которые диск резервирует для замены поврежденных секторов. Раньше на диске всегда было несколько сбойных секторов в первый день, и затем диск мог их заменить, и у вас был 100% рабочий диск.
В наши дни диски намного сложнее, поэтому обычно такая замена начинается только тогда, когда диск начинает выходить из строя.
Это очень сильное упрощение, но вы понимаете.
Альтернативной стратегией было бы следить за числом и проверять, не растет ли оно. Но часто, когда диск начинает выходить из строя, вы всего в нескольких минутах ходьбы от катастрофического отказа. Так что, учитывая сегодняшнюю цену дисков, я предпочитаю их выбросить, чем рискую.
Я никогда не терял данные из-за сбоя диска.