Назад | Перейти на главную страницу

Восстановление Raid-массивов

Как я могу восстановить рейдовые массивы? Я использую Raid 1. В моем центре обработки данных говорится, что это необходимо исправить. Сначала я подумал, что жесткие диски неисправны из-за результата сканирования smartmoontools, но это не так.

команда:

cat / proc / mdstat

вывод:

Personalities : [raid1] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb1[1] sda1[0]
      2096064 blocks [2/2] [UU]

md1 : active raid1 sda2[0]
      524224 blocks [2/1] [U_]

md2 : active raid1 sda3[0]
      729952192 blocks [2/1] [U_]

unused devices: <none>

Мне нужно:

# mdadm /dev/md1 -r /dev/sdb2
# mdadm /dev/md2 -r /dev/sdb3
# mdadm /dev/md3 -r /dev/sdb4

а потом

# mdadm /dev/md1 -a /dev/sdb2
# mdadm /dev/md2 -a /dev/sdb3
# mdadm /dev/md3 -a /dev/sdb4

Потеряю ли я данные или мой сервер отключится?

Вот результат для fdisk -l

Disk /dev/sda: 750.1 GB, 750156374016 bytes
64 heads, 32 sectors/track, 715404 cylinders
Units = cylinders of 2048 * 512 = 1048576 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1               2        2048     2096128   fd  Linux raid autodetect
/dev/sda2            2049        2560      524288   fd  Linux raid autodetect
/dev/sda3            2561      715404   729952256   fd  Linux raid autodetect

Disk /dev/sdb: 750.1 GB, 750156374016 bytes
64 heads, 32 sectors/track, 715404 cylinders
Units = cylinders of 2048 * 512 = 1048576 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               2        2048     2096128   fd  Linux raid autodetect
/dev/sdb2            2049        2560      524288   fd  Linux raid autodetect
/dev/sdb3            2561      715404   729952256   fd  Linux raid autodetect

Disk /dev/md2: 747.4 GB, 747471044608 bytes
2 heads, 4 sectors/track, 182488048 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md2 doesn't contain a valid partition table

Disk /dev/md1: 536 MB, 536805376 bytes
2 heads, 4 sectors/track, 131056 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/md0: 2146 MB, 2146369536 bytes
2 heads, 4 sectors/track, 524016 cylinders
Units = cylinders of 8 * 512 = 4096 bytes

Disk /dev/md0 doesn't contain a valid partition table

Вот вывод для smartctl -A / dev / sdb

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   100   006    Pre-fail  Always       -       38042073
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       7
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   073   060   030    Pre-fail  Always       -       24494887
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       7935
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       7
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   062   052   045    Old_age   Always       -       38 (Min/Max 34/41)
194 Temperature_Celsius     0x0022   038   048   000    Old_age   Always       -       38 (0 26 0 0 0)
195 Hardware_ECC_Recovered  0x001a   032   026   000    Old_age   Always       -       38042073
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       101494372179726
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3317006641
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2924590852

raid1

Этот диск sdb выглядит так, будто он недалеко от сбоя. Хотя это не так официально пока не удалось, в нем осталось мало жизни.

195 Hardware_ECC_Recovered  0x001a   032   026   000    Old_age   Always       -       38042073

На этом диске было много восстанавливаемый ошибки чтения. Это означает, что он успешно восстановил данные с помощью исправления ошибок. Однако дело доходит до того, что, скорее всего, скоро безвозвратно ошибка чтения, при которой невозможно успешно восстановить данные на поврежденном или неисправном разделе диска. В этот момент вы ничего не можете сделать, и вам придется заменить диск.

Если ваша перестройка продолжает останавливаться в том же месте, вполне возможно, что диск уже вышел из строя в этой точке на пластинах и не сообщает об этом. Диски класса настольных ПК будут останавливаться и в течение нескольких минут или даже часов пытаться прочитать определенный сектор, если они выйдут из строя с первого раза, что приводит к такого рода вещам. А у вас наверное в этом "сервере" такой привод ...

На этом этапе вам следует заранее заменить этот диск, так как он скоро выйдет из строя, если не уже.

Кажется, что не хватает только половины зеркала. Так что проблем быть не должно, но вопрос в том, почему отсутствуют sumbirrors (sdbX)? Может быть, было бы неплохо проверить их перед повторным прикреплением к зеркалам.

mdadm --manage /dev/md1 --add /dev/sdb2
mdadm --manage /dev/md2 --add /dev/sdb3
mdadm --manage /dev/md3 --add /dev/sdb4

Когда у вас есть два тома, зеркально отображаемых с использованием RAID1, каждая копия имеет «счетчик активности», который обновляется, когда что-то изменяется внутри копии: таким образом система может понять, какой из них является наиболее актуальным в случае сбоя или другие вещи, которые снимают одно из двух.

Повторная синхронизация означает, что самая последняя версия копируется поверх более старой, которая «потеряла синхронизацию». Таким образом, отключенный жесткий диск или неисправный приведет к тому, что массив перейдет в «деградированный режим» (только одна копия в сети, без резервирования).

Из деградированного режима вы можете восстановить либо принудительную повторную синхронизацию, чтобы единственный активный раздел был клонирован в тот, который вы вернули для работы, либо заменить неисправный диск и предоставить новое пространство для массива, который будет клонирован в том же способ, описанный ранее.

Оба метода сохранят ваши данные нетронутыми, если вы не сделаете что-то неправильное с конфигурациями или с "хорошими" разделами, которые все еще живы =)

Я думаю, это хорошая идея сделать резервную копию ваших настроек рейда, прежде чем вы даже подумаете о том, чтобы с ними возиться =)

Что касается значений SMART, они мне кажутся вполне нормальными, помимо Hardware_ECC_Recovered, которое также обсуждается в других ответах.

В любом случае избегайте рассмотрения единственного значения, которое вы видите там, также проверьте, с какой скоростью оно изменяется. Однажды у меня были странные значения на диске, но они не ухудшились, они были стабильными. С другой стороны, хорошие значения SMART не являются доказательством идеального диска: на мой взгляд, они могут быть полезны для проверки износа диска из-за использования / старения, но они мало что могут сделать для предотвращения внезапных сбоев (например, вызванных механическими нагрузками, перегрев и т. д. - подумайте о неисправном кулере в серверной ..)

Удачи! знак равно