Я унаследовал следующую критическую ситуацию.
Существуют более долгосрочные планы по использованию лучшего хранилища, использованию горячего резерва, улучшению мониторинга, настройке зеркалирования, резервному копированию и т. Д. И т. Д. И т. Д., Но неотложной необходимостью является защита основных данных, поскольку они имеют решающее значение для бизнеса, но являются необходимыми. сидит на массиве RAID5 с двумя дисками, показывая ошибки
Мы в основном свели варианты к одному из
Опция 1
Основная проблема заключается в том, что пока массив перестраивается (24–48 часов?), В системе отсутствует избыточность, и любые сбои диска будут означать потерю всех данных.
Вариант 2
Основная проблема заключается в том, что это займет во много раз больше времени, чем восстановление RAID, поскольку файловая система имеет много сотен миллионов маленьких файлов, поэтому копирование может занять около месяца, не влияя на сайт, который использует файлы.
Мне было бы интересно узнать, какой подход вы выберете и почему? Беспокоят ли медиа-ошибки такого уровня? Беспокоит ли рост количества ошибок в СМИ?
Да, я бы волновался, и, учитывая вашу ситуацию, я бы установил другую систему и сделал резервную копию как можно скорее, так как любая попытка перестроения может легко привести к потере всего.
Интересная часть RAID 5 заключается в том, что у вас может быть URE на другом диске, который в настоящее время отображается как нормальный, поэтому даже диски, которые, как вы думаете, работают, не работают. Отсюда и ваша «ошибка восстановления».
Установите систему для копирования ваших данных и начните резервное копирование этих файлов как можно скорее. Затем беспокойтесь о восстановлении сервера.
... хотя лично, как только вы создадите резервную копию и узнаете, что она хороша, я бы полностью поменял ваш сервер на что-то с RAID 10 или 6, начните с нуля ...