Назад | Перейти на главную страницу

Почему снижается количество ошибок SMART?

У меня есть жесткий диск, который является частью массива raid5 программного обеспечения Linux. SMART сообщил, что его multi_zone_error_rate было 0, затем 1, затем 3. Поэтому я решил, что мне лучше начинать резервное копирование чаще и готовиться к замене диска. Сегодня, сегодня multi_zone_error_rate того самого диска снова снизился до 1. Кажется, что 2 ошибки не произошли, пока я не смотрел.

Я также наблюдал похожее поведение, просматривая системный журнал на сервере.

Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun  8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun  8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200

Это необработанные ценности, а не полезные для человека ценности, которые smartctl -a производит, но поведение аналогично: изменяется частота ошибок, затем изменение отменяется. Ни один из этих дисков не обладает странностями multi_zone. Я не видел никаких проблем с RAID; его последний скраб (<24 часов назад) вернулся полностью чистым. Это единственные значения SMART, которые ведут себя странно.

Единственное, о чем я могу думать, это то, что схема отчетности SMART на приводе не работает должным образом все время. Кабели плотно прилегают к диску и плате. Что тут происходит?

Поскольку мера называется скоростью, может случиться так, что со временем ожидается ее снижение, если больше не возникнет ошибок. Чтобы убедиться, вам нужно будет проверить документацию к диску.

Если мерой является «количество появлений с течением времени», а не абсолютное количество с определенного времени, тогда оно упадет, если ошибки перестанут появляться. Возможно, предыдущее увеличение было связано с локальными изменениями в условиях окружающей среды, такими как внезапный скачок температуры (необычная погода, неисправность кондиционирования воздуха) или увеличение вибрации (любая работа, выполненная в одной и той же стойке в определенное время, могла вызвать удары по предметам. , или, возможно, незначительные подземные толчки, если вы находитесь в зоне их воздействия, или, возможно, кто-то рассердился и кричать на сервер), и это временное изменение условий с тех пор вернулось и не вернулось.

«ошибка» в именах чтения SMART не всегда означает постоянную и / или неустранимую ошибку. Ошибка поиска, возможно, может быть связана с отсутствием метки головок привода из-за вибрации - в этом случае электроника привода просто повторно отрегулирует положение (или оставит его для стабилизации) и будет ждать, пока диск не начнет вращаться, чтобы цель сектор снова доступен. Такого рода вещи ожидаются с очень жесткими временными рамками и требованиями к точному позиционированию, с которыми работают современные приводы на основе вращающихся дисков, и небольшое количество таких ошибок не является проблемой.

Возможно, он выделил плохие сектора и «устранил» проблему. Некоторое количество этого вполне допустимо в драйвере.