Назад | Перейти на главную страницу

SMART предупреждает меня, но я ему не доверяю

У меня есть сервер с четырьмя жесткими дисками Samsung. Все диски одной модели и были куплены вместе. Приводы - SAMSUNG HE753LJ с прошивкой 1AA01113.

Я получаю ошибки SMART, но у меня такое чувство, что smartctl не понимает значение, которое он получает от жесткого диска.

Вот результат SMART-теста:

asgard:~# smartctl -H /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
Failed Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0007   001   001   011    Pre-fail  Always   FAILING_NOW 60340

Я не доверяю SMART, потому что:

Я хотел бы последовать совету smartctl и заменить эти диски, но я просто не доверяю результатам, которые я прочитал.

Что Вы думаете об этом? Что бы вы сделали?

Спасибо за вашу помощь.

У меня был запасной диск, с которого я все еще могу загрузиться, но он не работает. SMART проверяет каждую загрузку и требует мягкого сброса, который использовался годами, но это просто дамп, а не системный диск! Таким образом, хотя ошибки SMART могут сохраняться в течение длительного времени, их ВСЕГДА следует учитывать в производственной среде, поскольку риски значительно перевешивают преимущества затрат, времени и целостности данных. Google изучил 100,00 дисков и обнаружил:

Данные SMART (технология самоконтроля, анализа и отчетности) могут быть полезны при определении того, выйдет ли из строя диск. До 30 процентов дисков, которые указали на ошибки SMART, в конечном итоге вышли из строя, и вероятность сбоя становится все хуже и хуже, чем дольше неисправный диск остается в эксплуатации. Тем не менее, многие диски в какой-то момент своей жизни обнаруживают ошибки SMART.

Так что это не всегда надежный индикатор. Однако ошибка SMART значительно увеличивает вероятность сбоя диска сразу после первоначального обнаружения:

Работа в Google над более чем 100 000 дисков не показала общей прогностической ценности S.M.A.R.T. статус в целом, но предполагает, что определенные подкатегории информации, которые некоторые S.M.A.R.T. отслеживание реализаций действительно коррелирует с фактической частотой отказов - в частности, в течение 60 дней после первой ошибки сканирования на диске вероятность отказа этого диска в среднем в 39 раз выше, чем если бы такая ошибка не возникла.

Так что статистически ваш диск, вероятно, в порядке, поскольку он превысил 60-дневный лимит.

Несмотря на эти сильные корреляции, мы обнаружили, что модели прогнозирования отказов, основанные только на параметрах SMART, вероятно, будут сильно ограничены в их точности прогнозирования, учитывая, что большая часть наших отказавших дисков не показала никаких сигналов об ошибках SMART вообще.

Но готовы ли вы и дальше рисковать? Я бы поменял диск как можно скорее, чтобы не вставать рано.

SMART overall-health self-assessment test result: FAILED!

Эта часть не интерпретируется smartctl (если, конечно, я правильно понимаю) - этот диск сообщил smartctl, что он недоволен своим текущим состоянием (по какой-либо причине), и smartctl просто повторяет это предупреждение вам. Даже если он неверно интерпретирует показания времени раскрутки, я не думаю, что он делает какую-либо интерпретацию чтения «теста самооценки».

Я бы посоветовал перенести ваши данные с этого диска как можно скорее, желательно до его следующих циклов питания, если проблема с раскруткой реальная и может усугубиться.

Все диски одной модели и были куплены вместе.

Это бомба замедленного действия.

Судя по сообщению SMART и приведенной выше цитате, вам следует немедленно заменить диски.

Поскольку диски были куплены вместе и принадлежат к одной и той же модели, они, вероятно, будут иметь одинаковые слабые места и, вероятно, все выйдут из строя одновременно при одинаковых условиях ...

Основная концепция RAID заключается в том, что диски выходят из строя в разное время, что дает вам возможность заменять один диск за раз и избежать потери данных.

Другие сообщали об одновременном выходе из строя всего массива идентичных дисков в конфигурации RAID, происходящих из одной производственной партии и, следовательно, имеющих такую ​​же слабость.

Не могу не подчеркнуть: вам нужно начать менять местами диски!

Запустите DST на дисках и замените их соответственно.

Я бы сразу поменял диски, не особо задумываясь об этом. Будьте осторожны, диски очень дешевые, и вы будете лучше спать. Ваше время, потраченное на диагностику дисков, вероятно, стоит больше, чем сами диски.

Убедитесь, что у вас установлена ​​последняя версия интеллектуальных утилит, а не только те, которые включены в вашу ОС. умные утилиты часто обновляются, и некоторые ошибки, отправляемые с определенных дисков, необходимо устранить.

Исследование Google было очень информативным. 30% диска с ошибками SMART в конечном итоге выходят из строя. Это не шанс, с которым я буду иметь дело. Это 9% -ная вероятность того, что два диска выйдут из строя и ваш RAID в этот момент будет разрушен.

Несколько лет назад у меня были похожие проблемы с некоторыми дисками Seagate. Мы купили одновременно около 8 дисков, и все они были из одной партии. Примерно в 3 года ездил один диск. Через 18 часов поехала еще одна поездка, через 24 часа поехала третья поездка.