Назад | Перейти на главную страницу

Замена жестких дисков

Мне было интересно, стоит ли заменить жесткий диск на (достаточно) критически важном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.

Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на серверах, я мог бы подумать, какие жесткие диски нужно заменить.

Это хорошая идея или люди просто ждут провала?

Google провел исследование дисковых накопителей и обнаружил очень слабую корреляцию между возрастом диска и отказом. SMART-тесты тоже не показывают сбоев.

Мои локальные наблюдения (> 500 серверов) аналогичны. У меня новые диски быстро выходят из строя, а старые продолжают работать.

Мое общее правило: если мы увидели проблемы с диском (SMART или системные ошибки), мы немедленно заменим его. Если нет, то диски отключаются и выключаются вместе с сервером.

Исследование Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

Нет.

Одна из самых больших проблем при замене жесткого диска на активном производственном сервере заключается в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления намного превышает риск, связанный с оставлением трехлетнего накопителя на месте.

Возьмем крайний пример: если вы последовательно заменяете каждый диск в массиве RAID5 с 6 дисками, состоящем из дисков 2 ТБ, ваш теоретический риск неисправимой ошибки чтения во время одной из перестроек составляет около 58% (согласно моим подсчетам на салфетке; пожалуйста, сделайте свой и сравните примечания). Другими словами: ваша «профилактическая» замена диска, по сути, не что иное, как акт саботажа.

Единственный раз, когда я мог бы подумать об обновлении дисков на старом сервере, был бы в ходе его «восстановления», например после того, как он был выведен из эксплуатации для выполнения одной задачи и перед тем, как вернуть его в эксплуатацию с новой ролью. Даже в этом случае требования к емкости и производительности будут намного важнее, чем возраст дисков.

Я этого не видел. Мы держим серверы на гарантии до момента снятия с производства - 5 лет. Стандартный RAID 5 позволяет вам пережить сбой диска, поэтому мы просто держим под рукой пару дисков, чтобы мы могли сразу начать восстановление, а на критически важных серверах мы включаем горячий запас или переходим на RAID 10.

Если вы недавно заметили отказ нескольких дисков на сервере, возможно, у вас проблема с объединительной платой. Возможно, это новая вибрация или пыль от ближайшего строительства.