Назад | Перейти на главную страницу

Неудачные тома на RAID - как обращаться?

У меня возникла ситуация с RAID, за которую я недавно взял на себя ответственность, и мне действительно нужен совет. Надеюсь, я не сильно напортачил.

Несколько серверов в специальном кластере, которым я управляю, начали сообщать о проблемах с дисками. Я запустил fsck на одном, xfs_repair - на другом. Первый вроде как исправили, второй о проблемах не сообщал. Их можно было монтировать для чтения и записи, и они вызвали бы ошибки чтения для определенных файлов.

Я проследил диски до одного RAID:

Глядя на интерфейс администратора JetStor:

Вот что я сделал:

  1. Перемонтировал все разделы как доступные только для чтения или размонтировал их. (Хотя служба поддержки JetStor сказала, что в этом нет необходимости. Гарантия на устройство отсутствует, но мне ответили на этот вопрос)
  2. Заменил (горячая замена) два вышедших из строя диска и позвольте им восстановить.
  3. Заменил (оперативно заменил) два диска, помеченных как «дефектный», и позвольте им восстановить. Эти два диска были связаны с двумя более важными отказавшими пользовательскими томами в панели администратора JetStor.
  4. Создано несколько новых пользовательских томов, которые будут действовать как заменяющие тома большего размера и действовать как промежуточное хранилище.
  5. Пытался перемонтировать два отказавших тома. Теперь они вообще не садятся.
  6. Запуск xfs_repair на одном теперь генерировал ошибки о плохих суперблоках и некоторых попытках восстановления, а также дамп в каталог lost + found с большим количеством файлов, но не исправление поврежденного, на которое я надеялся. Я собираюсь восстановить все, что смогу для этого диска из резервной копии, и восстановить остальное (он содержит каталог для моей системы резервного копирования, так что да!)

Итак, мой вопрос касается второго тома пользователя (типа ext3). Я еще не пробовал его ремонтировать, потому что что случилось с томом xfs (т.е. дамп в потерянный + найденный). У меня есть частичная резервная копия этого тома, охватывающая наиболее важные файлы, но было бы здорово вернуть все остальные (которые еще не были повреждены). Если восстановленные файлы действительно будут сброшены в папку lost + found, это, конечно, будет намного лучше, чем ничего.

Я попытался сделать это, но у меня не получилось всего несколько гигов (это объем 500 ГБ):

dd if=/dev/sdf of=/homLocDump/sdfDump.img conv=noerror,sync 

dd: reading `/dev/sdf': Input/output error
15002344+0 records in
15002344+0 records out
7681200128 bytes (7.7 GB) copied, 493.416 seconds, 15.6 MB/s
dd: writing to `/homLocDump/sdfDump.img': Read-only file system
15002344+1 records in
15002344+0 records out
7681200128 bytes (7.7 GB) copied, 493.417 seconds, 15.6 MB/s

fsck показывает это:

[root@shank ~]# fsck.ext3 -nv /dev/sdf
e2fsck 1.39 (29-May-2006)
Couldn't find ext2 superblock, trying backup blocks...
fsck.ext3: Bad magic number in super-block while trying to open /dev/sdf

The superblock could not be read or does not describe a correct ext2
filesystem.  If the device is valid and it really contains an ext2
filesystem (and not swap or ufs or something else), then the superblock
is corrupt, and you might try running e2fsck with an alternate superblock:
    e2fsck -b 8193 <device>

Я пробовал с параметрами «-b» с блоками 8193, 16384 и 32768, а затем с дополнительными суперблоками для блока fs 4k (я предполагаю, что это размер блока 4k, как и у других устройств в этой системе), но получил то же самое.

dumpe2fs:

[root@shank ~]# dumpe2fs /dev/sdf
dumpe2fs 1.39 (29-May-2006)
dumpe2fs: Bad magic number in super-block while trying to open /dev/sdf
Couldn't find valid filesystem superblock.

Могу ли я еще попробовать fsck на этом томе? Помимо проблемы суперблока, я сейчас не уверен в уместности запуска fsck на томах рейда.

Можно ли временно заменить старый неисправный диск в RAID, чтобы получить состояние, при котором том можно смонтировать и восстановить некоторые файлы?

Кроме того, мне любопытно, как том может так испортиться в рейде - разве рейд не должен защищать целостность? Если два диска выходят из строя в RAID 6, разве это не должно терпеть?

На данный момент совершенно очевидно, что ваши тома потеряны. Теперь вам нужно принять решение: Насколько сильно вам нужны эти данные?

  • Если у вас есть время и вы не против дальнейшей потери данных, не стесняйтесь продолжать экспериментировать.

  • Если вам это очень нужно, выключите весь массив. Отметьте диски в их текущих положениях. Также отметьте диски, которые вы удалили во время восстановления, с указанием их происхождения. Вызовите специалиста по восстановлению данных, например OnTrack, и договоритесь о доставке массива для восстановления.

  • Если вам не нужны данные, я предлагаю начать заново с резервных копий. Но убедитесь, что вы заменили ВСЕ диски, которые вернули ошибки. Пока вы это делаете, просмотрите журналы SMART для всех дисков и замените те, у которых больше ошибок, чем у других. Возможно, вам потребуется удалить существующие тома.

В конце концов, я рекомендую перенастроить ваш массив. 16 дисков в конфигурации RAID5 или RAID6 - это слишком много. Я рекомендую разделить ваши диски на две группы по 8, работающих с RAID6 и RAID0 над этими дисками. JetStor может делать это за вас автоматически и может называть это RAID60.

Я думаю, что совершенно очевидно, что ваш массив по сути неисправен, и если у вас нет резервных копий, значительная часть ваших данных будет потеряна. Если у вас есть резервные копии, все заменяют вышедшие из строя диски и восстанавливаются из резервных копий. Если вы этого не сделаете и ваши работодатели считают, что это стоит денег, попросите профессиональную фирму по восстановлению данных попытаться восстановить то, что они могут (и, ради Бога, прекратите что-либо делать с этими дисками, поскольку вы только ухудшаете ситуацию) , но это довольно дорогой вариант.

На этом этапе лучшее, что вы можете сделать, помимо создания резервных копий и / или попыток профессионалов восстановить ваши данные, - это настроить системы и процессы мониторинга, чтобы убедиться, что вы снова не получите отказавший массив. заменяя диски по мере их выхода из строя, а не после того, как слишком поздно, и слишком многим не удалось восстановить все ваши данные.

Я бы также серьезно рассмотрел возможность работы в другом месте. Окружающая среда, которой позволили распасться до такого состояния, - это особый ад.