У меня есть сервер с четырьмя жесткими дисками Samsung. Все диски одной модели и были куплены вместе. Приводы - SAMSUNG HE753LJ с прошивкой 1AA01113.
Я получаю ошибки SMART, но у меня такое чувство, что smartctl не понимает значение, которое он получает от жесткого диска.
Вот результат SMART-теста:
asgard:~# smartctl -H /dev/sdb smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: FAILED! Drive failure expected in less than 24 hours. SAVE ALL DATA. Failed Attributes: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 3 Spin_Up_Time 0x0007 001 001 011 Pre-fail Always FAILING_NOW 60340
Я не доверяю SMART, потому что:
Я хотел бы последовать совету smartctl и заменить эти диски, но я просто не доверяю результатам, которые я прочитал.
Что Вы думаете об этом? Что бы вы сделали?
Спасибо за вашу помощь.
У меня был запасной диск, с которого я все еще могу загрузиться, но он не работает. SMART проверяет каждую загрузку и требует мягкого сброса, который использовался годами, но это просто дамп, а не системный диск! Таким образом, хотя ошибки SMART могут сохраняться в течение длительного времени, их ВСЕГДА следует учитывать в производственной среде, поскольку риски значительно перевешивают преимущества затрат, времени и целостности данных. Google изучил 100,00 дисков и обнаружил:
Данные SMART (технология самоконтроля, анализа и отчетности) могут быть полезны при определении того, выйдет ли из строя диск. До 30 процентов дисков, которые указали на ошибки SMART, в конечном итоге вышли из строя, и вероятность сбоя становится все хуже и хуже, чем дольше неисправный диск остается в эксплуатации. Тем не менее, многие диски в какой-то момент своей жизни обнаруживают ошибки SMART.
Так что это не всегда надежный индикатор. Однако ошибка SMART значительно увеличивает вероятность сбоя диска сразу после первоначального обнаружения:
Работа в Google над более чем 100 000 дисков не показала общей прогностической ценности S.M.A.R.T. статус в целом, но предполагает, что определенные подкатегории информации, которые некоторые S.M.A.R.T. отслеживание реализаций действительно коррелирует с фактической частотой отказов - в частности, в течение 60 дней после первой ошибки сканирования на диске вероятность отказа этого диска в среднем в 39 раз выше, чем если бы такая ошибка не возникла.
Так что статистически ваш диск, вероятно, в порядке, поскольку он превысил 60-дневный лимит.
Несмотря на эти сильные корреляции, мы обнаружили, что модели прогнозирования отказов, основанные только на параметрах SMART, вероятно, будут сильно ограничены в их точности прогнозирования, учитывая, что большая часть наших отказавших дисков не показала никаких сигналов об ошибках SMART вообще.
Но готовы ли вы и дальше рисковать? Я бы поменял диск как можно скорее, чтобы не вставать рано.
SMART overall-health self-assessment test result: FAILED!
Эта часть не интерпретируется smartctl (если, конечно, я правильно понимаю) - этот диск сообщил smartctl, что он недоволен своим текущим состоянием (по какой-либо причине), и smartctl просто повторяет это предупреждение вам. Даже если он неверно интерпретирует показания времени раскрутки, я не думаю, что он делает какую-либо интерпретацию чтения «теста самооценки».
Я бы посоветовал перенести ваши данные с этого диска как можно скорее, желательно до его следующих циклов питания, если проблема с раскруткой реальная и может усугубиться.
Все диски одной модели и были куплены вместе.
Это бомба замедленного действия.
Судя по сообщению SMART и приведенной выше цитате, вам следует немедленно заменить диски.
Поскольку диски были куплены вместе и принадлежат к одной и той же модели, они, вероятно, будут иметь одинаковые слабые места и, вероятно, все выйдут из строя одновременно при одинаковых условиях ...
Основная концепция RAID заключается в том, что диски выходят из строя в разное время, что дает вам возможность заменять один диск за раз и избежать потери данных.
Другие сообщали об одновременном выходе из строя всего массива идентичных дисков в конфигурации RAID, происходящих из одной производственной партии и, следовательно, имеющих такую же слабость.
Не могу не подчеркнуть: вам нужно начать менять местами диски!
Запустите DST на дисках и замените их соответственно.
Я бы сразу поменял диски, не особо задумываясь об этом. Будьте осторожны, диски очень дешевые, и вы будете лучше спать. Ваше время, потраченное на диагностику дисков, вероятно, стоит больше, чем сами диски.
Убедитесь, что у вас установлена последняя версия интеллектуальных утилит, а не только те, которые включены в вашу ОС. умные утилиты часто обновляются, и некоторые ошибки, отправляемые с определенных дисков, необходимо устранить.
Исследование Google было очень информативным. 30% диска с ошибками SMART в конечном итоге выходят из строя. Это не шанс, с которым я буду иметь дело. Это 9% -ная вероятность того, что два диска выйдут из строя и ваш RAID в этот момент будет разрушен.
Несколько лет назад у меня были похожие проблемы с некоторыми дисками Seagate. Мы купили одновременно около 8 дисков, и все они были из одной партии. Примерно в 3 года ездил один диск. Через 18 часов поехала еще одна поездка, через 24 часа поехала третья поездка.