Процесс восстановления из рейда 5

Я недавно установил массив MDRAID 5 с 3 дисками 4 ТБ для зеркалирования и онлайн-резервного копирования нашего сервера.

Я готовлюсь к будущему отказу оборудования (диска) и хотел смягчить проблему восстановления из URE.

Обычно я думаю, что процесс восстановления массива выглядит следующим образом:

Удалите и замените неисправный диск.
Восстановить массив

Насколько я понимаю, в деградированном массиве RAID 5 вы все еще можете получить доступ к данным; но когда неисправный диск был заменен и массив перестраивается, если обнаруживается URE, восстановление не удастся, и данные в массиве немедленно станут нечитаемыми и невосстановимыми.

Если я правильно понимаю, то восстанавливать массив до тех пор, пока все (читаемые) данные не будут продублированы, не представляется разумным.

Это оставляет мне процесс:

Повторяющиеся данные из массива.
Удалите и замените неисправный диск.
Восстановить массив

Есть ли другой процесс, который мог бы смягчить сбои при восстановлении (кроме сбоя второго диска во время восстановления)? Безопасно ли перестраивать массив без предварительного дублирования данных? Мои предположения ошибочны, например, повторная сборка не выполняется на URE, но данные все еще доступны в ухудшенном состоянии?

Вы можете подготовиться к отказу привода и ко всем другим неприятностям, реализовав Резервное копирование 3-2-1 план, мое личное мнение 3-2-1 должны быть в каждой критической для бизнеса среде.

Следующий 3-2-1 Правило облегчит жизнь, это, очевидно, будет стоить $, но результат того стоит.

Вы можете узнать больше здесь: https://knowledgebase.starwindsoftware.com/explanation/the-3-2-1-backup-rule/

https://www.veeam.com/blog/the-3-2-1-0-rule-to-high-availability.html

Я понимаю, что URE немного сложнее и неизвестны большинству, поскольку они связаны с отказами массива.

Вывод такой URE могут привести к сбою массивов, но не так часто, как говорится в математических расчетах в статьях. Но RAID 5 по-прежнему очень подвержен сбоям по сравнению со ВСЕМИ другими уровнями RAID.

Итак, вернемся к основам, что мы смягчаем во время восстановления RAID 5? Мы пытаемся вернуть паритет до того, как выйдет из строя второй диск. Это оно! Это абсолютно необходимое усилие.

Это заставляет меня укрепить свой список

Временно дублируйте данные из массива. Лента дешевле, если массив большой и на жестком диске нет места.
Удалите и замените неисправный диск.
Создайте новый массив с новым диском с нуля.
Перезагрузите файлы в новый массив с шага 1.

Это предполагает, что массив может быть отключен, что не всегда так. В конце концов, тем не менее, некоторые пришли к выводу, что создание нового массива с нуля и передача данных обратно одним махом проще и быстрее, чем попытка полной перестройки на большом массиве размером в несколько ТБ.

Кроме того, я подозреваю, что чтение данных и запись данных из массива последовательно в ухудшенном состоянии эффективно только один раз значительно снизит вероятность сбоя второго диска до того, как данные будут дублированы, по сравнению с полным перестроением с перебоями, хотя вероятность все еще остается там.

В конце концов, все дело в управлении рисками, которое зависит от множества конкретных обстоятельств. В моем конкретном случае я обычно могу найти время в пределах 24-часового окна, чтобы восстановить свой массив, и поэтому в моем случае лучше всего было бы создать резервную копию, перестроить и восстановить из новой резервной копии.