У меня есть несколько массивов хранения, в которых значительное количество дисков проработало от 25 000 до 30 000 часов (2,8 - 3,4 года). У этих дисков нет других проблем или ошибок.
Что я хочу знать: есть ли момент, когда один только возраст диска является достаточно важным фактором, чтобы заменить диск, даже если привод исправен и ошибок нет?
(Мне любопытно узнать, склонны ли люди запускать диски до тех пор, пока они не выйдут из строя или не начнут выдавать ошибки, или кто-нибудь проявит упреждающий подход при замене, используя в качестве показателя часы работы.)
Производители приводов обычно указывают наработку на отказ на отказе на корпоративных дисках от 1 000 000 до 1 500 000 часов, но эти цифры на самом деле мало что значат в реальном мире.
Я нашел это исследование, завершенное в 2007 году:
Отказы дисков в реальном мире: что для вас означает наработка на отказ в 1 000 000 часов?
http://www.cs.cmu.edu/~bianca/fast07.pdf
Исследование предлагает «золотую середину» между 1 годом и 5-7 годами, когда можно ожидать меньше неудач. Возраст вождения до и после этого, как правило, был значительно выше.
Нет.
Вы заменяете диски, когда они выходят из строя (или вы получаете прогнозируемый сбой, как в SMART), а не только потому, что они достигли определенного возраста. Я видел, как диски служат более 15 лет, и видел, как диски выходят из строя менее чем за час, поэтому возраст не является хорошим показателем отказа диска.
Я видел серверы, которым 10-15 лет, оригинальные диски все еще работают, а функции, которые они выполняют, не изменились. Я видел серверы, которым меньше года, с катастрофическим отказом диска.
У меня нет мнения о том, насколько хорошей / плохой практикой является запуск диска до тех пор, пока он не покажет признак отказа, поэтому мой ответ будет «это зависит» - от резервных копий, ценности данных / инструментов, размера диска, интенсивность работы, если он находится в зеркальном массиве, и если время простоя для его замены может быть предоставлено, что может быть дороже, чем простое оборудование.
Я думаю, что на основе этих вещей и других переменных, характерных для вашего сайта и приложения, это должно быть решение, которое принимает ваша команда, а не какое-то механическое значение возраста.
Изменить: если данные или время безотказной работы важны, рассмотрите стратегию резервного копирования и аварийного восстановления с практическими запусками, используя резервные серверы и зеркальные массивы с дисками из разных партий. Таким образом, крайне маловероятно, что все произойдет одновременно, поэтому вы сможете переключиться на работающее оборудование, пока неисправное будет заменено без потери данных.
Я никогда не встречал (и не слышал) никого, кто заменял бы диски только потому, что они «слишком старые» (при сохранении хранилища / сервера в рабочем состоянии).