Назад | Перейти на главную страницу

Следует ли мне беспокоиться о высоком значении SMART Hardware_ECC_Recovered?

Я получил такое сообщение в /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Означает ли это, что диск вышел из строя и мне нужно его заменить? Где я могу прочитать об интерпретации результатов теста S.M.A.R.T?

По словам Стива Гибсона из Спинрит славы, значения SMART следует воспринимать с течением времени, а не как мгновенные показания. Это означает, что значение 47 не обязательно плохо, если значение было 47 в течение нескольких месяцев. Однако, если значение было 42 час назад и оно быстро растет, это означает, что накопитель испытывает трудности с доступом к части данных и вскоре может вообще не прочитать сектор. В зависимости от ценности данных на этом диске вы можете захотеть заменить его.

Большое значение для этого атрибута на самом деле неплохо:

Аппаратное восстановление ECC S.M.A.R.T. Параметр указывает время между ошибками, исправленными с помощью ECC.

https://kb.acronis.com/content/9131

Первый, ниже значения хуже для SMART, а не более высокие значения (обратите внимание, что столбец порога всегда ниже текущего значения). Так что увеличение значения не повод для беспокойства. (Однако это правило не применяется к необработанным значениям.)

Значения SMART имеют тенденцию немного колебаться (например, у вас может быть разница между 46 и 47, поэтому даже небольшие изменения могут привести к переключению на другое значение).

Ваш smartctl -a Выходные данные показывают, что наихудшее значение было 45, поэтому колебания немного выше нормы.

Для получения дополнительной информации загляните в Википедию: ATA S.M.A.R.T. атрибуты.

Имейте в виду, что даже обширное исследование, проведенное Google, показало, что большое количество отказов дисков не было предсказано ошибками SMART. Возможно, то, что вы видите, совершенно нормально, но поскольку у каждого производителя разные метрики для преобразования необработанных значений в сообщенные значения, трудно сказать наверняка, много ли ошибок у вашего диска или нет. Однако такое большое число кажется мне странным.

Я бы порекомендовал прочитать весь диск (dd или rsync'ing на новый диск) и проверять значения SMART по мере продвижения. Если вы видите это необработанное число или сообщенные значения, сильно изменитесь, я бы начал искать замену диска.

В этом нет ничего плохого.

Ты всегда можешь бежать

smartctl -t long /dev/yourdrive

Затем через несколько часов запросите его результат

smartctl -a /dev/yourdrive

просто чтобы убедиться.

Восстановленный аппаратный ECC IIRC - это исправление ошибок при чтении с диска, что не является необычным для диска, и именно по этой причине они кодируют данные с помощью механизмов исправления ошибок. Некоторые контроллеры также поддерживают избыточную информацию в секторах диска и добавляют еще один уровень исправления ошибок.

Как заявляет Дэйв Чейни, цифры следует отслеживать с течением времени. Радикальные изменения в этой статистике указывают на неисправный диск. Также следите за увеличившимися списками дефектов - если увеличившийся список дефектов начинает расти или статистика SMART начинает существенно меняться, вам следует профилактически заменить диск.