Просто быстрый вопрос: есть ли причина менять жесткий диск сервера через x лет до того, как он выйдет из строя (в какой-то момент это произойдет), или мне просто оставить его, пока он не выйдет из строя? У меня мало опыта в администрировании серверов, поэтому мне интересно ...
Отличная причина изменить это, если вы хотите добавить еще одну задачу в свой список дел, увеличивая при этом вероятность того, что что-то пойдет не так.
Если не считать шуток, я действительно не слышал о какой-либо причине, чтобы менять привод раньше времени. Если у вас есть RAID, у вас уже есть защита (при условии, что у вас есть достойные резервные копии), и вы не создаете ненужный материал в виде мертвого диска, который нужно утилизировать, и вам не нужно без нужды работать над устранением конфиденциальные данные с диска. Вы не будете тратить лишние деньги на новые диски, и вы по-прежнему не будете активно защищать от вещей, которые все равно могут пойти не так, как неисправный контроллер привода, который не является распространенным источником сбоя привода, но может случиться.
С другой стороны, это может помочь вам обнаружить неисправимые ошибки диска, которые не вызывают срабатывания сигнализации на RAID-модуле, как это случилось с RAID 5. Нас это укусило, и нам пришлось восстанавливать с нуля из резервной копии (так что даже в этом случае правильное резервное копирование поможет вам восстановить.) Уровень RAID, который учитывает сегодняшнюю большую емкость дисков и устойчивость к невосстановимым ошибкам, помог бы нам, если бы нет, резервные копии спасли бы положение.
У большинства администраторов есть приличный план RAID и резервного копирования, поэтому нет реальной необходимости создавать лишние отходы, заменяя диски без необходимости.
Единственный раз, когда я мог бы подумать об этом, - если бы у меня была куча дисков из одной партии, а другие в партии начали выходить из строя, тогда я мог бы это рассмотреть.
Если бы у меня было мало места, то, конечно, я бы это сделал - но только по той причине, что оно стареет? Нет, потому что в среднем частота отказов в первый год такая же, как и в другие годы. (обратите внимание, что на графике первый год разбит на 3 месяца, 6 месяцев, 1 год, но вам придется сложить их все вместе, чтобы получить шанс отказа через 1 год). А если посмотреть на высокий коэффициент использования диска, то вероятность отказа в первый год выше, чем в следующие три года вместе взятые.
Единственная корреляция с поздним отказом диска была в более жарких помещениях, и мы поддерживаем прохладу в серверных.
Я за проактивность, но я никогда этого не делал и никогда не слышал, чтобы кто-то этим занимался. Предположительно, у вас есть какой-то тип настройки RAID и регулярно выполняемые действительные резервные копии для рассматриваемой системы (систем).
Да, производительность и емкость. Если старый жесткий диск выполняет непрерывное чтение со скоростью 70 МБ / с и 100 операций ввода-вывода в секунду, а потенциальная замена выполняет непрерывное чтение 200 МБ / с и 175 операций ввода-вывода в секунду, а также имеет в 3 раза большую емкость, вам может быть оправдано покупать новые диски и заменять старые на новые просто для причины производительности / емкости. (и эти числа полностью выдуманы, дело в том, что новее может быть значительно быстрее).
Что теперь делать со старыми дисками. Вы можете использовать их на тестовом сервере, или добавить их в резервную копию на дисковый массив, или сохранить их в качестве запасных. Или вы можете просто стереть их и отправить на утилизацию.
Ваш средний сервер в настоящее время больше привязан к вводу-выводу, чем к процессору (или, по крайней мере, ко всем моим). Поэтому, если у вас действительно старый сервер, у которого нет проблем с процессорным временем или нехваткой памяти, у вас, вероятно, есть место для значительного повышения производительности за счет замены жестких дисков, которые на несколько поколений отстают от того, что вы можете легко приобрести для их замены.
Это зависит от воздействия неисправности жесткого диска.
Если у вас нет RAID
Если вас не волнует доступность сервера, потому что служба может быть остановлена или потому что она находится в режиме высокой доступности и у вас есть рабочая резервная копия данных. Я бы сказал: «Хорошо, пусть диск сдохнет, поменяйте его и восстановите данные, когда он выйдет из строя».
Если вам важна доступность, я скажу использовать RAID;)
Если у вас есть RAID (1, 5, 6, ...)
Я бы сказал, зачем менять жесткий диск до неисправности? RAID (и резервное копирование) здесь для этого. Замена жесткого диска на случай отказа - риск что-то сломать (реконструкция рейда всегда рискованна)
Но это только моя точка зрения! Если вы думаете, что ваш диск слишком старый, вы можете также сменить сервер.
Некоторые диски умирают за 1 час, другие служат 2 десятилетия.
Если это не сбой или сбой (что-то, что вы обычно можете установить с помощью мониторинга S.M.A.R.T. или проблем с производительностью), то единственная другая причина, чтобы выбросить его, - это то, что он недостаточно большой или достаточно быстрый для ваших целей.
С дисками вопрос не в если они потерпят неудачу, но когда. Это механические устройства (если не используются твердотельные накопители, но у них есть свои предостережения), поэтому они рано или поздно выйдут из строя.
Продавцы дисков стремятся сделать свои производственные процессы как можно более дешевыми, потому что даже цент, сэкономленный на диске, может быть весьма важным, когда вы производите и продаете тысячи дисков; но они, конечно, не хотят, чтобы их диски вышли из строя до истечения гарантийного срока, иначе они все время заменяли бы их бесплатно; так что они с радостью потратят столько, сколько нужно, чтобы они прослужили, пока на них распространяется гарантия ... но ни цента больше.
Конечный результат таков: большинство дисков выходят из строя вскоре после окончания гарантийного срока. Это, конечно, не общее правило, это всего лишь статистика, и ваш диск может выйти из строя сейчас или длиться до тех пор, пока он вам больше не понадобится ... но, по статистике, есть много дисков, которые выходят из строя через несколько дней или месяцев после истечения срока гарантии.
Конечно, покупка новых, когда они вам все еще не нужны, может быть дорогостоящей ... но замена их после истечения гарантии и выхода из строя в любом случае будет дорогостоящей.
Теперь, если бы вы могли найти способ заставить их выйти из строя, по-прежнему имея гарантии (и не теряя при этом данные, т.е. имея хороший RAID И бэкапы) ну что бы оптимально ;-)
Я бы не стал заменять рабочий диск больше, чем исправный блок питания. Оба в конечном итоге выйдут из строя, но нет никакого смысла ни с технической, ни с финансовой точки зрения заменять их без уважительной причины. Замените их, когда они начинают проявлять признаки неисправности.
В случае жестких дисков тенденция такова, что если диск выйдет из строя раньше, то скорее всего это произойдет в первый год. Обычно можно рассчитывать, что диски, которые проработали без проблем в течение 6 лет, проработают еще как минимум несколько лет. Конечно, есть много исключений, но это общая тенденция.
Также имейте в виду, что большинство дисков серверного класса предъявляют более строгие производственные требования и обычно более надежны, чем недорогие / бюджетные диски для настольных ПК. Таким образом, помимо опасностей, связанных с заменой «хорошего» диска в случае его возможной поломки, выполнение этой процедуры для большого массива может привести к большим деньгам.
Кроме того, при использовании RAID рекомендуется иметь хотя бы один «горячий» резерв на сервере, чтобы он мог быстро начать восстановление и оставаться работоспособным, пока вы не приобретете замену по мере необходимости.
Я сделал это на системах с нулевым временем простоя. На самом деле, вы с такой же вероятностью потеряете разные диск, когда RAID восстанавливается ... Один раз я заменил его, а потом снова вставил, когда другой диск начал выдавать ошибки во время восстановления.
На самом деле это вопрос философии: если вы верите в проактивное стресс-тестирование (как массива, так и сердечно-сосудистой системы), вам следует поменять диски местами. Но на самом деле вы никогда не узнаете, какой диск выйдет из строя в следующий раз. Вовсе не исключено, что вы можете потерять только что замененный диск, прежде чем потеряете какой-либо из старых, проверенных дисков.
При этом я бы тратил время на стресс-тестирование своего решения для резервного копирования и оставил диски в покое, пока они не начнут фактически выдавать ошибки.