Назад | Перейти на главную страницу

Ошибка набора томов RAID6 Areca 1280 мл

Сегодня мы сталкиваемся с наихудшим сценарием и открыты для любых хороших идей.

Вот наша проблема:

Мы используем несколько выделенных серверов хранения для размещения наших виртуальных машин. Прежде чем я продолжу, вот спецификации:

Мы сконфигурировали один RAID6-набор из 10 дисков, содержащих один логический том. У нас в системе два горячих резерва.

Сегодня вышел из строя один HDD. Такое случается время от времени, поэтому мы заменили его. При восстановлении второй диск не удалось. Обычно это не весело. Мы остановили тяжелые операции ввода-вывода, чтобы обеспечить стабильное восстановление RAID.

К сожалению, диск горячего резервирования вышел из строя во время восстановления, и все это остановилось.

Теперь имеем следующую ситуацию:

Это система RAID 6, и два диска вышли из строя, поэтому данные должны быть неповрежденными, но мы не можем снова подключить том для доступа к данным.

В процессе поиска мы нашли следующие зацепки. Не знаю, хорошие они или плохие:

  1. Зеркальное копирование всех дисков на второй набор приводов. Так что у нас будет возможность пробовать разные вещи, не теряя больше, чем мы уже имеем.

  2. Пытаюсь перестроить массив в R-Studio. Но у нас нет реального опыта работы с программным обеспечением.

  3. Вытаскивание всех дисков, перезагрузка системы, переход в BIOS контроллера areca, повторная установка жестких дисков один за другим. Некоторые люди говорят, что это привело к запуску системы. Некоторые говорят, что эффект нулевой. Некоторые говорят, что они все взорвали.

  4. Использование недокументированных команд ареки, таких как «rescue» или «LeVel2ReScUe».

  5. Обращение в службу компьютерной криминалистики. Но эй ... первичная оценка по телефону превысила 20 000 евро. Поэтому мы просим о помощи. Может, мы упускаем из виду очевидное?

И да, конечно, у нас есть резервные копии. Но некоторые системы потеряли данные за одну неделю, поэтому мы хотели бы снова запустить систему.

Любая помощь, предложения и вопросы приветствуются.

Я считаю, что вариант 1 - ваш лучший.

Возьмите 12 новых жестких дисков, 1 новый RAID-контроллер. Попробуйте отразить (dd if = of =) старые диски на новые 1: 1, используя любой Linux-сервер. Создайте новый сервер, используя 1x новый RAID-контроллер плюс 12x новых жестких дисков

Попробуйте перестроить массив на новом сервере. Успех? Отлично. Стоп.
Восстановить не удалось? Зеркально отразите старые диски на новые снова, попробуйте вариант i + 1

К сожалению, это очень распространенный сценарий. Много лет назад Google было проведено хорошее исследование, и выяснилось, что потеря данных с RAID может произойти во время восстановления массива. Это может повлиять на разные системы RAID с разной степенью серьезности. Вот сценарий RAID6:

  • ваш массив имеет 3 диска данных и 2 диска четности.
  • если вы потеряете один диск, можно быть уверенным, что все данные можно будет восстановить.
  • если вы потеряете 2 диска, вы потеряете данные

Это почему?

Подумайте о следующем: пусть есть некоторые данные, предположим, что первые 3 блока файла у вас есть следующие блоки данных: A1 + A2 + A3 и следующая четность: Ap + Ap сидит на hdd1 ... hdd5

Если вы потеряете любые два диска между 1 и 3, вы потеряли данные, потому что данные не подлежат восстановлению, у вас есть 2 четности и 1 блок данных.

Теперь тот же сценарий с 10 дисками может быть другим, но я предполагаю, что он обрабатывается так же, как вы разбиваете данные на 8 блоков и сохраняете четность на 2 других дисках и имеете 2 горячего резервирования. Вы знаете подробности конфигурации вашего RAID-контроллера?

Я бы начал восстанавливаться из удаленной резервной копии (я думаю, у вас есть), и служба вернулась, попытайтесь восстановить как можно больше данных, используя Unix и dd диски к изображениям и используя их, например, как устройство цикла.

http://wiki.edseek.com/guide:mount_loopback

Вам нужно знать, какие метаданные использует RAID-контроллер, и, если вам повезет, они поддерживаются каким-нибудь инструментом, например dmraid.

Но это не означает, что вы вообще можете восстановить данные, так как файлы обычно распределяются между многими-многими блоками, восстановление, скорее всего, не вернет какие-либо из ваших данных.

Подробнее о RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup