Мне было интересно, стоит ли заменить жесткий диск на (достаточно) критически важном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.
Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на серверах, я мог бы подумать, какие жесткие диски нужно заменить.
Это хорошая идея или люди просто ждут провала?
Google провел исследование дисковых накопителей и обнаружил очень слабую корреляцию между возрастом диска и отказом. SMART-тесты тоже не показывают сбоев.
Мои локальные наблюдения (> 500 серверов) аналогичны. У меня новые диски быстро выходят из строя, а старые продолжают работать.
Мое общее правило: если мы увидели проблемы с диском (SMART или системные ошибки), мы немедленно заменим его. Если нет, то диски отключаются и выключаются вместе с сервером.
Исследование Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf
Нет.
Одна из самых больших проблем при замене жесткого диска на активном производственном сервере заключается в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления намного превышает риск, связанный с оставлением трехлетнего накопителя на месте.
Возьмем крайний пример: если вы последовательно заменяете каждый диск в массиве RAID5 с 6 дисками, состоящем из дисков 2 ТБ, ваш теоретический риск неисправимой ошибки чтения во время одной из перестроек составляет около 58% (согласно моим подсчетам на салфетке; пожалуйста, сделайте свой и сравните примечания). Другими словами: ваша «профилактическая» замена диска, по сути, не что иное, как акт саботажа.
Единственный раз, когда я мог бы подумать об обновлении дисков на старом сервере, был бы в ходе его «восстановления», например после того, как он был выведен из эксплуатации для выполнения одной задачи и перед тем, как вернуть его в эксплуатацию с новой ролью. Даже в этом случае требования к емкости и производительности будут намного важнее, чем возраст дисков.
Я этого не видел. Мы держим серверы на гарантии до момента снятия с производства - 5 лет. Стандартный RAID 5 позволяет вам пережить сбой диска, поэтому мы просто держим под рукой пару дисков, чтобы мы могли сразу начать восстановление, а на критически важных серверах мы включаем горячий запас или переходим на RAID 10.
Если вы недавно заметили отказ нескольких дисков на сервере, возможно, у вас проблема с объединительной платой. Возможно, это новая вибрация или пыль от ближайшего строительства.