Восстановление с проколотого RAID-массива

вот моя ситуация.

У меня есть сервер Dell с контроллером Dell Perc 7i (контроллер LSI).

У меня был накопитель, который выдавал мне предупреждение о прогнозировании отказа, поэтому я позвонил в их службу поддержки, и они вышли и заменили накопитель, и массив восстановил себя, довольно стандартно.

Две недели спустя у меня есть еще один диск с предупреждением о прогнозировании отказа. Я подумал, может быть, это была плохая партия дисков или совпадение и т. Д. Поэтому я обращаюсь в службу поддержки и ищу более подробную информацию. Я понимаю, что на одном из других дисков были сбойные блоки, которые не вышли из строя, и эти сбойные блоки были скопированы во время восстановления. Итак, теперь у меня повсюду плохие блоки, и они медленно убивают мой массив. Я обнаружил, что это называется перфорированным массивом.

Поэтому они посоветовали заменить все диски, восстановить массив и восстановить из резервной копии. За исключением того, что у меня была эта проблема в течение нескольких недель, что означает, что мои резервные копии плохие ... и если я восстановлюсь из резервной копии, сделанной ранее (месяц назад), то мне не хватит данных на 4 недели из моей базы данных, которые совершенно неприемлемо для нашего офиса.

У меня вопрос ... Кто-нибудь когда-либо восстанавливался от чего-то подобного без потери данных или без целого подхода (выбросить все в окно и начать заново)?

Я нашел одну ссылку, охватывающую мой сценарий, не уверен, проливает ли она хоть какой-то свет на ситуацию: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Любая помощь или направление будут оценены! Что, вы парни, думаете?

Ваша система, как я полагаю, все еще работает, поэтому лучше всего немедленный резервное копирование, дамп дисков / массива, перестройка и восстановление из резервной копии.

Плохие блоки не всегда означают, что ваши резервные копии тоже плохие. Если у вас не было проблем с производительностью или поврежденных файлов, ваши резервные копии должны быть достаточно полными, чтобы завершить восстановление.

Чтобы проверить, сделайте самую последнюю резервную копию и изучите самые важные данные. Если он все еще не поврежден, вероятно, у вас есть хорошая резервная копия.

На этом этапе существует риск, поскольку вы не можете быть на 100% уверены, что ваши резервные копии в порядке или что резервное копирование сейчас не приведет к потере файлов. Однако ваш массив воля в конечном итоге выйдет из строя и все равно принудительно восстановить, так что это ваш единственный реальный вариант.

Прямо сейчас сделайте следующее:

Прекратите вращать резервные копии или удалять старые для этой системы. Вы хотите сохранить все резервные копии, которые у вас есть.
Сделайте полную резервную копию сервера.

Надеюсь, что диски все еще достаточно хороши, чтобы ваши данные были неповрежденными, и вы не столкнетесь с какими-либо проблемами при запуске новой полной резервной копии.

Затем выбросьте эти диски и создайте новый RAID-массив. Когда все будет готово, попробуйте восстановить данные из резервной копии, которую вы только что сделали. Если повезет, это все, что вам нужно сделать.

Если это не удается, попробуйте следующий по возрасту, следующий по возрасту и т. Д. Обязательно проверьте функциональность системы - только потому, что она загружается, не означает, что она полностью работоспособна. В частности, проверьте базы данных на наличие повреждений.

Если вам пришлось восстановить всю систему из более старой резервной копии, это нормально. Создавайте новейшие резервные копии и восстанавливайте только файлы базы данных и другие важные файлы. Проверьте их, чтобы убедиться, что они работают правильно. Опять же, если это не удается, попробуйте следующий по возрасту.

Использование этого процесса сводит к минимуму потерю данных.

Ответы, предоставленные Грантом и Натаном Си, великолепны в отношении того, как вы должны действовать при работе с резервными копиями / восстановлением и обеспечении целостности данных.

Вот более ясная информация о том, как обращаться с набором RAID, когда приходит время воссоздать виртуальный диск и восстановить его из резервной копии:

Убедитесь, что у вас есть хорошая резервная копия данных
Удалите существующий виртуальный диск; После этого все диски должны отображаться в состоянии готовности.
Воссоздайте новый виртуальный диск; Рекомендуемые настройки: адаптивное упреждающее чтение, обратная запись и кэширование диска отключены.
У вас должен быть виртуальный диск в сети, в котором выполняется фоновая инициализация.
Продолжить восстановление из резервной копии; Фоновая инициализация обычно выполняется около 600 ГБ / час для шпинделей 7,2 тыс. восстановить.

Заметка: Если вы использовали RAID5, вам следует ШУТКИ В СТОРОНУ подумайте об использовании RAID6 на этот раз. RAID5 не является надежным для критически важных бизнес-данных в соответствии с передовыми отраслевыми стандартами для массивов такого размера. Диски SATA / NL-SAS большой емкости также имеют более высокий риск столкнуться с URE во время восстановления, что приводит к проколу, подобному тому, с которым вы имеете дело. RAID6 значительно снижает этот риск и обычно приемлем для критически важных данных с доступной в настоящее время емкостью дисков.