Назад | Перейти на главную страницу

Более безопасное восстановление RAID5 с использованием частично отказавших дисков?

В последнее время было опубликовано множество статей о том, насколько RAID5 опасен из-за длительного времени восстановления, и, в частности, из-за увеличения вероятности обнаружения URE во время восстановления. Очевидно, это серьезная проблема. Однако кажется, что во многих интересных случаях (пока вы следите за своими дисками), когда приходит время перестроить массив, диск, который я заменяю, все еще в основном удобочитаемый.

Если вы попытаетесь объяснить это затруднительное положение рядовому непрофессионалу, он, как правило, очень запутается, почему у вас есть два почти полностью функциональных диска, но вы не можете создать один рабочий массив. Мне кажется, что должен быть какой-то способ воспользоваться этим, чтобы сделать восстановление более безопасным, если я хочу, чтобы RAID5 был доступен только для чтения в течение нескольких дней, пока он восстанавливается. Концептуально то, что я имею в виду, выглядит примерно так:

При выходе из строя диска немедленно отключите RAID5 или подключите его только для чтения.
Подключите новый диск (в запасном отсеке или извне через eSATA) и начните его восстановление, чтобы заменить вышедший из строя. Если известно, возможно, начните с полос, в которых произошел сбой, чтобы свести к минимуму вероятность их потери в случае сбоя другого диска.
В случае, если второй диск испытывает URE или другой сбой во время восстановления, попробуйте получить эти данные с заменяемого диска. Предположительно, если это произойдет, потребуется дополнительная реконструкция.
По завершении выключите сервер, при необходимости установите новый диск в исходный отсек и снова включите массив.

Очевидно, что такой процесс не подходит для приложений, в которых время безотказной работы критично или потеря данных недопустима, но мне кажется, что это может значительно повысить надежность RAID5.

Я предполагаю, что в настоящее время нет хорошего способа реализовать такое восстановление, учитывая, что я не видел никаких указаний на инструменты, которые предназначены для этого, и что похоже, что было бы довольно глупо работать вручную. Есть ли с ним еще технические проблемы, о которых я не думал (я все еще новичок в RAID)? Есть мысли о том, насколько сложно будет реализовать что-то подобное (например, в linux md raid)?

РЕДАКТИРОВАТЬ: В случае, если кто-то еще обнаружит это при поиске того же, что и я, оказывается, что это уже пара функций в более новых версиях md. Список плохих блоков (если он включен) позволяет md отказывать отдельные блоки, а не целые диски, а горячая замена позволяет создавать новый диск, работающий в основном с того, который он собирается заменить, но с использованием других дисков в массиве. при необходимости. На странице руководства для недавнего mdadm есть больше инструкций о том, как это сделать.

raid5