Мы испытали отказ горячего резерва во время восстановления отказавшего диска в массиве RAID5. Кажется, мы действительно потеряли некоторые данные из-за этого, по крайней мере, отсек для хранения выдает ошибки чтения ввода-вывода на некоторых блоках.
Возникает вопрос: почему перестройка не может просто начаться со следующего доступного диска горячего резервирования (их больше одного)?
Итак, позвольте мне подумать: допустим, 5-дисковый RAID5 + горячее резервирование:
Теперь, если во время реконструкции произойдет сбой горячего резервирования, у нас все еще будут данные с 4 дисков + информация о четности, что позволит использовать новый горячий резерв и начать все заново.
Единственное, о чем я могу думать прямо сейчас, - это нехватка памяти для очень большого битового массива измененных блоков (на случай, если во время реконструкции было много записей).
Что я забываю? (Я не пробовал реализовать это :-P)
Да ладно. Первоначальное предположение было неверным: горячий резерв не отказал, но другой диск из группы raid отказал во время восстановления.
Массив сохранял диск живым столько, сколько мог, но некоторые секторы были неизбежно потеряны (ошибка двойной четности в одном рейде).