Назад | Перейти на главную страницу

Отказ RAID5 2-диска - что делать?

У меня есть массив RAID5 с 6 дисками на сервере gentoo. mdadm сообщает, что два диска вышли из строя. В случае, если диски действительно исчезнут, я готов отправить диски профессионалам для восстановления, но я не хочу делать это, если в этом нет необходимости, и я не хочу, чтобы мои собственные попытки восстановления предпринимали им жизнь тяжелее. Тем не менее, если я смогу восстановить массив и запустить его сам, я бы предпочел это сделать.

1) Какие шаги мне следует предпринять немедленно, чтобы снизить риск потери данных?

2) Как лучше всего определить, действительно ли диски неисправны или были ошибочно помечены как неисправные?

3) Есть ли риск перезагрузки машины и / или попытки самостоятельно восстановить массив?

Как уместно, что это должно произойти сразу после «Недели благодарности за резервное копирование» (или как там она называется).

Проблема с попытками сделать что-либо самостоятельно заключается в том, что вы просто увеличиваете степень деградации дисков каждый раз, когда вы их запускаете. Решать сейчас если вы собираетесь отправить его профессионалам, и если да, просто сделайте это. Предположительно, если эти данные достаточно важны, чтобы потратить на их восстановление тысячи долларов, скорее всего, это то, что вам понадобится раньше, чем позже, так что просто отправьте их сейчас.

Да, и резервные копии. Делайте хорошие резервные копии. RAID не является резервной копией, а RAID 5 в наши дни даже не считается избыточностью, учитывая размер дисков (и, следовательно, время, необходимое для восстановления большого массива).

Краткий ответ: создайте массив без RAID 5, который может хранить данные, а затем восстанавливать их из резервной копии.

Если у вас нет резервной копии: «Вы делаете это неправильно»

Более длинная версия:

Рассмотрим RAID 10. Если пространство является проблемой, купите больше дисков и перейдите к RAID 6, если ваш контроллер поддерживает его, или купите еще больше дисков и сделайте RAID 10 в любом случае. Создайте RAID-массив (ы), а затем восстановите данные из последней резервной копии.

Вы можете найти полезную информацию, используя Реконструктор RAID, который доступен только для чтения и будет сканировать диски, чтобы определить, что с ними происходит. Очевидно, вам понадобится возможность подключать диски к другой системе, а не через RAID-контроллер. Оценка ваших дисков ничего вам не стоит.

Плач. У нас это случилось дважды за две недели. Наши кондиционеры были в затруднении, и датчики температуры не сообщали об этом. Жара убила много наших дисков.

Забавно, но наш новый центр обработки данных готовился к расширению, и группа радостных специалистов сказала: «Не беспокойтесь, вы используете 46% мощности».

Позже мы выяснили, что они неправильно записали размеры блоков переменного тока, в 2 раза, и мы фактически использовали 97% мощности. Ой.

Затем мы добавили целый стек новых серверов, думая, что у нас есть тонны буферного пространства на емкости AC.

Таким образом, у нас были проблемы с теплом в течение нескольких месяцев, так как они были нужны нам, чтобы получить более мощные компрессоры для переменного тока, на что было запланировано 18 месяцев.

Что еще нового в мире?

ответ Womble покрывает наихудший сценарий, но есть большая вероятность, что один или оба диска в порядке. Если вы хотите попробовать восстановить данные самостоятельно, я бы рекомендовал попытаться использовать только один из неисправных дисков при попытке восстановления и отложить другой диск в сторону на случай, если вам в конечном итоге понадобится отправить весь RAID5 в фирму по восстановлению данных. .

С недорогими картами SATA мы нередко теряли сразу два диска из нашего RAID5, даже если только один из них был неисправен. У нас также было несколько случаев, когда ни один из дисков не был неисправен, и мы не могли надежно определить причину сбоев RAID5. С тех пор мы перешли на более крупные диски в конфигурации RAID1 и рассматриваем возможность перехода на ZFS на raidz2 или raidz3.

Как уже упоминал кто-то другой, служба восстановления не сможет восстановить данные только с неисправных дисков. Вам нужно будет отправить все диски из вашего RAID5.

Вы должны знать, что существуют разные уровни отказа. Если есть серьезный физический ущерб из-за разбитой головы, ваша единственная надежда заключается в службе восстановления, но есть вероятность, что ваши данные исчезли.

Если вы не можете оправдать затраты на отправку всех дисков в службу восстановления данных, вы можете скопировать содержимое диска на хороший диск с помощью dd или dd_rescue, а затем выполнить дополнительную диагностику отказавшего диска, пока вы собираете свой RAID и запустите полное резервное копирование. К сожалению, вы не сможете определить, в порядке ли ваши файлы или они повреждены, если у вас нет недавнего списка контрольных сумм или существующей резервной копии для их сравнения.

Если вы можете определить, что сектор 0 плохой (обычно на это указывает повторное нажатие после включения), вам безнадежно не повезло. Агент восстановления Ontrack сказал мне, что они не могут восстановить какие-либо данные с диска, который я прислал, потому что им абсолютно необходима возможность записи в сектор 0. Меня это немного раздражало, потому что я уже определил, что сектор 0 плох, прежде чем я прислали диск, и Ontrack не был полностью уверен в их возможностях.

Вы можете определить, были ли диски ошибочно помечены как неисправные, просмотрев системные журналы и / или используя smartctl (из smartmontools пакет) для просмотра диагностической информации SMART, хранящейся на дисках. Если smartmontools сообщает о хорошем состоянии диска и у вас нет перераспределенных секторов (в «подсчете перераспределенных секторов»), то с вашим диском все в порядке, и вы можете попробовать собрать RAID и создать резервную копию.

В будущем вы также можете подумать о настройке окна OpenSolaris с ZFS на raidz2 или raidz3. Это даст вам двойную или тройную четность, соответственно, что позволит вам потерять 2 (raidz2) или 3 (raidz3) диска до потери данных. Кроме того, ZFS проверяет все контрольные суммы, поэтому ваша файловая система не будет подвержена скрытому повреждению данных, как в других конфигурациях с одним диском или RAID.

Желательно иметь хотя бы двойную четность в любой конфигурации RAID, потому что у вас все еще есть избыточность, пока вы находитесь в процессе замены и восстановления первого отказавшего диска. (Конечно, не следует ждать, пока 2 диска выйдут из строя, прежде чем заменить первый отказавший диск.)

Снизить риск потери данных? Возможно, для этого уже слишком поздно.

Что касается риска загрузки машины, если RAID-массив действительно мертв, перезагрузка машины не ухудшит ситуацию. Если это не так плохо, как кажется на первый взгляд, и сервер загрузится, и если RAID-массив и его данные доступны, я предлагаю как можно скорее запустить полное резервное копирование и связаться с поставщиком сервера / хранилища, чтобы узнать их мнение о ситуации.

Вы, наверное, уже отправили диски, но я все равно спрошу: диски какой марки и модели вы используете?

Я спрашиваю, потому что любой диск Western Digital, не являющийся моделью RE (Raid Edition), имеет причуду, которая означает, что контроллеры RAID будут выбрасывать их из массива, даже если диск на самом деле все еще цел.

Из WDC RE3 страница: «Ограниченное по времени восстановление после ошибок (TLER) для конкретного RAID - предотвращает выпадение диска из строя, вызванное расширенными процессами восстановления жесткого диска после ошибок, обычными для настольных компьютеров».

По сути, если на диске есть какая-то внутренняя ошибка (не обязательно фатальная с точки зрения ваших данных), диски без RE могут потратить много времени на ее устранение, прежде чем вернуть результат. Многие RAID-контроллеры видят, что диск слишком долго не отвечает, и отмечают его как плохой. «Функция» TLER в дисках RE в основном просто снижает время ожидания до уровня, приемлемого для карт RAID.

Я не уверен, почему это кажется специфическим для WDC - я не встречал подобных проблем с настольными версиями других производителей. Я определенно видел и слышал о других, у которых были проблемы с дисками для настольных ПК WDC, которые случайным образом выбрасывались из массивов только для того, чтобы нормально проверить и восстановить.

Если ваши диски были настольными дисками WDC, есть большая вероятность, что это вызвало вашу ошибку, что, в свою очередь, означает, что данные были неповрежденными. Конечно, это может не упростить восстановление ваших данных :)