Назад | Перейти на главную страницу

RAID-5: Два диска вышли из строя одновременно?

У нас есть сервер Dell PowerEdge T410 под управлением CentOS с массивом RAID-5, содержащим 5 дисков Seagate Barracuda 3 ТБ SATA. Вчера система вылетела (точно не знаю, логов нет).

После загрузки в BIOS контроллера RAID я увидел, что из 5 дисков диск 1 был помечен как «отсутствующий», а диск 3 был помечен как «деградированный». Я принудительно создал резервную копию диска 3 и заменил диск 1 новым жестким диском (того же размера). BIOS обнаружил это и начал восстанавливать диск 1, однако он застрял на% 1. Индикатор хода вращения всю ночь не двигался; полностью заморожен.

Какие у меня здесь варианты? Есть ли какой-нибудь способ попытаться восстановить систему, кроме использования какой-либо профессиональной службы восстановления данных? Как два жестких диска могли так выйти из строя одновременно? Кажется слишком случайным. Возможно ли, что диск 1 вышел из строя, и в результате диск 3 "рассинхронизировался"? Если да, то есть ли какая-нибудь утилита, которую я могу использовать, чтобы вернуть его "синхронно"?

У вас отказал двойной диск. Это означает, что ваши данные исчезли, и вам придется восстановить их из резервной копии. Вот почему мы не должны использовать raid 5 на больших дисках. Вы хотите настроить свой рейд так, чтобы у вас всегда была возможность противостоять двум отказам диска, особенно с большими медленными дисками.

Ваши варианты:

Восстановление из резервных копий.
- Вы делать есть резервные копии, не так ли? RAID не является резервной копией.
Профессиональное восстановление данных
- Возможно, хотя это очень дорого и не гарантируется, профессиональная служба восстановления сможет восстановить ваши данные.
Признание потери данных и извлечение уроков из опыта.
- Как отмечено в комментариях, большие диски SATA не рекомендуются для конфигурации RAID 5 из-за вероятности двойного сбоя во время перестроения, что приведет к отказу массива.
  - Если это должен быть RAID с контролем четности, лучше использовать RAID 6, и в следующий раз также используйте горячий резерв.
  - Диски SAS лучше по ряду причин, включая большую надежность, отказоустойчивость и меньшую частоту неисправимых битовых ошибок, которые могут вызывать URE (неисправимые ошибки чтения)
- Как отмечалось выше, RAID не является резервной копией. Если данные имеют значение, убедитесь, что они зарезервированы, и что ваши резервные копии проверены на восстановление.

После того, как вы приняли плохой ответ, очень извиняюсь за свое еретическое мнение (которое уже несколько раз сохраняло такие массивы).

Ваш второй сбойный диск, вероятно, имеет небольшую проблему, возможно, сбой блока. Это причина, почему плохой инструмент синхронизации вашего плохой На нем вылетела прошивка raid5.

Вы можете легко сделать копию на уровне секторов с помощью инструмента клонирования диска низкого уровня (например, gddrescue вероятно, очень полезно), и используйте этот диск в качестве нового disk3. В этом случае ваш массив выжил с незначительным повреждением данных.

Прошу прощения, наверное, уже поздно, потому что суть ортодоксального ответа в данном случае: «множественный сбой в рейде5, вот и апокалипсис!»

Если вам нужен очень хороший, избыточный рейд, используйте программный рейд в Linux. Например, его структура данных суперблока рейда является общедоступной и документированной ... Мне очень жаль, что это еще одно еретическое мнение.

Одновременный отказ возможен, даже вероятен по причинам, указанным другими. Другая возможность состоит в том, что один из дисков вышел из строя некоторое время назад, и вы не проверяли его активно.

Убедитесь, что ваш мониторинг быстро обнаружит том RAID, работающий в деградированном режиме. Может быть, у вас не было возможности, но никогда не нужно учиться этим вещам из BIOS.

Чтобы ответить: "Как два жестких диска могли так выйти из строя одновременно?" именно, я хотел бы процитировать Эта статья:

Суть аргумента заключается в следующем. По мере того, как диски становились все больше и больше (примерно вдвое за два года), URE (неисправимая ошибка чтения) не улучшалась с той же скоростью. URE измеряет частоту возникновения неисправимой ошибки чтения и обычно измеряется в количестве ошибок на считанный бит. Например, скорость URE 1E-14 (10 ^ -14) означает, что по статистике неисправимая ошибка чтения будет происходить один раз на каждые считанные биты 1E14 (биты 1E14 = 1,25E13 байта или примерно 12 ТБ).

...

Аргумент состоит в том, что по мере увеличения емкости дисков и увеличения скорости URE не с той же скоростью вероятность сбоя при восстановлении RAID5 со временем увеличивается. Статистически он показывает, что в 2009 году емкость дисков выросла бы настолько, что бессмысленно использовать RAID5 для любого значимого массива.

Так что в 2009 году RAID5 был небезопасен. Скоро будет и RAID6. Что касается RAID1, я начал делать их из 3-х дисков. RAID10 с 4 дисками тоже ненадежен.

Поток старый, но если вы читаете, поймите, когда диск выходит из строя в массиве raid, проверьте возраст дисков. Если у вас есть несколько дисков в массиве raid и им больше 4-5 лет, велика вероятность, что другой диск выйдет из строя. *** СДЕЛАЙТЕ ИЗОБРАЖЕНИЕ или резервную копию **, прежде чем продолжить. Если вы считаете, что у вас есть резервная копия, проверьте ее, чтобы убедиться, что вы можете прочитать ее и восстановить из нее.

Причина в том, что вы подвергаете оставшиеся диски годами нормального износа, поскольку они часами вращаются на полной скорости. Чем больше количество дисков 6-летней давности, тем больше вероятность того, что другой диск выйдет из строя из-за нагрузки. Если это RAID5, и вы взорвали массив, отлично, у вас есть резервная копия, но для восстановления диска 2 ТБ потребуется 8–36 часов в зависимости от типа контроллера рейда и другого оборудования.

Мы регулярно заменяем весь raid hive на производственных серверах, если все диски старые. Зачем тратить время на замену одного диска, а затем ждать, пока следующий выйдет из строя через день, неделю, месяц или два. Какими бы дешевыми ни были диски, они просто не стоят того.

Обычно, покупая много дисков у надежного реселлера, вы можете запросить, чтобы диски поступали из разных партий, что важно по причинам, указанным выше. Далее, именно поэтому существует RAID 1 + 0. Если бы вы использовали 6 дисков в RAID 1 + 0, у вас было бы 9 ТБ данных с немедленным резервированием, когда перестройка тома не требуется.

Если ваш контроллер распознается dmraid (например, Вот) в Linux вы можете использовать ddrescue чтобы восстановить отказавший диск на новый и использовать dmraid для построения массива вместо аппаратного контроллера.