Назад | Перейти на главную страницу

Насколько надежны данные HDD SMART?

На основе УМНАЯ data, вы можете судить о состоянии диска, по крайней мере, такова идея. Если я, например, запустил sudo smartctl -H /dev/sda на моем ноутбуке ArchLinux он говорит, что жесткий диск прошел самотестирование и на основании этого он должен быть «исправным».

У меня вопрос, насколько надежна эта информация, а точнее:

Конечно, я храню резервные копии несмотря ни на что. Мне в основном любопытно.

По моему опыту (20 лет эксплуатации серверов, должно быть, обработал около 5.000 дисков на всех серверах, с которыми я имел дело) SMART полезен, но не панацея.

Если вы получаете ошибки SMART, замените диск как можно скорее. Очень высоки шансы, что через 4-8 недель с диском возникнут серьезные проблемы. (Исследование Google, которое часто упоминается в этой связи, очень хорошо коррелирует с моим личным опытом.)
Обычно у вас есть неделя или две, прежде чем диск станет действительно проблемным.

Если вы вообще не получаете ошибок SMART, диск все равно может выйти из строя без какого-либо предупреждения, хотя на серверах это довольно редко. Я вижу, может быть 3 или 4 таких случая в год. Пока мы меняем диски из-за ошибок SMART примерно 25 / мес.
Это может быть связано с тем, что серверные диски обычно являются частью массива raid и видят непрерывный шаблон чтения / записи по всему диску. При этом каждая часть диска регулярно «тренируется» (и проверяется).
Наибольшая вероятность отказа диска (без предварительного предупреждения) возникает при запуске, если сервер был отключен в течение некоторого времени после непрерывной работы в течение нескольких месяцев / лет.

В потребительском оборудовании (не серверном, ноутбуках / настольных компьютерах) я видел множество дисков с ошибками чтения, которые каким-то образом не попадали в данные SMART, хотя Windows регистрировала эти ошибки в журнале событий. (SMART регистрировал их только после полного chkdsk из Windows.)
Это заставляет меня думать, что на многих потребительских накопителях пороги SMART довольно низкие. Это может быть (большой IF) намеренным, чтобы снизить количество RMA в этом жестком бизнесе.
Многие потребители все равно не заметят случайных плохих блоков, пока не станет слишком поздно. (Сколько потребителей знает, где найти журнал событий? Это единственное место, где вы можете увидеть ошибки диска в Windows.)
По моему опыту, если потребительский диск имеет проблемы (SMART или другой), скопируйте свои данные и немедленно замените его. К тому времени, когда он выдает эти ошибки, он уже мертв.

Достаточно надежен, но не покрывает все типов режимов отказа, которые может иметь привод.

Использование той или иной формы RAID поможет защитить вас в большем количестве сценариев.

Я бы сказал, что на моих серверах только 20% отказов дисков являются результатом S.M.A.R.T. данные.

То, как серверы HP представляют эту информацию, наводит на мысль, что существует множество показателей, используемых для определения состояния диска и состояния отказа.

Есть статья об исследовании жестких дисков, используемых в Google, доступная по адресу http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/disk_failures.pdf что по существу заключает, что

Наши результаты подтверждают выводы предыдущих небольших популяционных исследований, которые предполагают, что некоторые параметры SMART хорошо коррелируют с более высокой вероятностью отказов. Например, мы обнаружили, что после первой ошибки сканирования у дисков в 39 раз больше шансов выйти из строя в течение 60 дней, чем у дисков без таких ошибок. Первые ошибки в перераспределении, перераспределении филей и пробном подсчете также сильно коррелируют с более высокой вероятностью отказа. Несмотря на эти сильные корреляции, мы обнаружили, что модели прогнозирования отказов, основанные только на параметрах SMART, вероятно, будут сильно ограничены в их точности прогнозирования, учитывая, что большая часть наших отказавших накопителей вообще не показала никаких сигналов об ошибках SMART.

Были проведены и другие исследования, которые также пришли к выводу, что данные SMART полезны, но имеют свои ограничения при прогнозировании отказа диска.

Мой личный опыт показывает, что общий интеллектуальный статус ожидает слишком большого количества ошибок, прежде чем он помечает диск как неисправный. Отдельные параметры полезны, и некоторые из них являются ужасными предупреждениями о необратимом отказе при первой ошибке, но не все из них являются убедительным доказательством того, что диск неисправен или скоро выйдет из строя. Читать http://en.wikipedia.org/wiki/S.M.A.R.T. для описания наиболее распространенных атрибутов.

Хотя, если общее состояние SMART плохое, значит, диск определенно плохой.

Если в RAID-массиве с избыточными дисками я выполняю 2 проверки согласованности и исправления подряд, и на втором проходе обнаруживаются ошибки, я больше не буду использовать этот жесткий диск и попытаюсь произвести замену по гарантии. Я считаю, что 1-й проход находит и исправляет любые несоответствия, а 2-й проход должен быть чистым. Если это не так, это означает, что жесткий диск не может хранить данные даже в течение этих нескольких часов.

Мониторинг информации SMART - хороший способ определить, «что диск выходит из строя», но я бы не стал использовать его, чтобы убедиться, что диск исправен (несмотря на многочисленные отчеты). Одна из проблем SMART заключается в том, что он сообщает вам только о том, что с диском ранее возникала проблема. Это может помочь вам определить, умирает ли диск из-за вас, и позволит вам заменить диск, если будет достигнут порог. Диски могут иметь катастрофические механические отказы на лету без каких-либо предыдущих проблем. Есть много случаев, когда диск выходит из строя, даже если тесты SMART никогда не выявляли никаких проблем (или помечали его как пройденное). Поэтому я всегда использую SMART-тестирование, чтобы понять историю диска, чтобы сделать вытесняющую замену диска, прежде чем возникнет проблема, а не как способ определить, исправен ли диск.

Кроме того, вопрос о том, насколько «надежным» является SMART-тестирование: если вы используете общую оценку состояния здоровья, вы получаете среднее значение, которое не будет таким «надежным», как ручной просмотр отдельных компонентов теста и решение для себя, какие действия необходимо предпринять. быть взятым. Например, у меня было много дисков, которые вернули исправный тест SMART, но при дальнейшем осмотре я могу увидеть, что у них были чрезмерные тепловые триггеры при тестировании SMART, которых недостаточно, чтобы пометить их как плохие, но достаточно информации, чтобы сказать мне, что: a) диск имеет стал горячим в прошлом б) если диск все еще находится в той же системе, то, возможно, мне следует что-то с этим сделать.

Суть в том, что всякий раз, когда вы полагаетесь на автоматический \ усредненный отчет, чтобы предоставить вам «надежную» информацию, вы открываете для себя возможность получения неверной информации.