Назад | Перейти на главную страницу

Деградированный раздел в системе RAID5

У меня есть сервер под управлением Debian Squeeze и система RAID5 с 3 дисками по 500 ГБ, которую я сам не настраивал. При загрузке состояние одного раздела в RAID-массиве кажется плохим.

md: bind<sda2>
md: bind<sdc2>
md: bind<sdb2>
md: kicking non-fresh sda2 from array!
md: unbind<sda2>
md: export_rdev(sda2)
raid5: device sdb2 operational as raid disk 1
raid5: device sdc2 operational as raid disk 2
raid5: allocated 3179kB for md1
1: w=1 pa=0 pr=3 m=1 a=2 r=3 op1=0 op2=0
2: w=2 pa=0 pr=3 m=1 a=2 r=3 op1=0 op2=0
raid5: raid level 5 set md1 active with 2 out of 3 devices, algorithm 2
RAID5 conf printout:
 --- rd:3 wd:2
 disk 1, o:1, dev:sdb2
 disk 2, o:1, dev:sdc2
md1: detected capacity change from 0 to 980206485504
 md1: unknown partition table

mdstat также сообщает мне, что раздел отсутствует:

Personalities : [raid1] [raid6] [raid5] [raid4] 
md1 : active raid5 sdb2[1] sdc2[2]
      957232896 blocks level 5, 64k chunk, algorithm 2 [3/2] [_UU]

md0 : active raid1 sda1[0] sdc1[2](S) sdb1[1]
      9767424 blocks [2/2] [UU]

При беге sudo mdadm -D, раздел отображается как удаленный, а массив как поврежденный.

/dev/md1:
        Version : 0.90
  Creation Time : Mon Jun 30 00:09:01 2008
     Raid Level : raid5
     Array Size : 957232896 (912.89 GiB 980.21 GB)
  Used Dev Size : 478616448 (456.44 GiB 490.10 GB)
   Raid Devices : 3
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Thu Aug 11 16:58:50 2011
          State : clean, degraded
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           UUID : 03205c1c:cef34d5c:5f1c2cc0:8830ac2b
         Events : 0.275646

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       18        1      active sync   /dev/sdb2
       2       8       34        2      active sync   /dev/sdc2

/dev/md0:
        Version : 0.90
  Creation Time : Mon Jun 30 00:08:50 2008
     Raid Level : raid1
     Array Size : 9767424 (9.31 GiB 10.00 GB)
  Used Dev Size : 9767424 (9.31 GiB 10.00 GB)
   Raid Devices : 2
  Total Devices : 3
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Thu Aug 11 17:21:20 2011
          State : active
 Active Devices : 2
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 1

           UUID : f824746f:143df641:374de2f8:2f9d2e62
         Events : 0.93

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1

       2       8       33        -      spare   /dev/sdc1

Тем не мение, md0 вроде нормально. Итак, что все это мне говорит? Может ли диск быть неисправным, хотя md0 работает? Если нет, могу я просто заново добавить /dev/sda2 к md1 массив для решения проблемы?

Сохранение работы массива со сломанным диском - точная цель RAID5. Он хранит информацию о избыточности, поэтому вы можете потерять один диск и при этом не потерять данные.

Я бы порекомендовал заменить диск как можно скорее, потому что, если вы потеряете другой диск, все ваши данные исчезнут.

В р в RAID означает робразованный.

RAID 5 - это N+1 redundant: Если вы потеряете один диск, вы находитесь N - Система будет работать нормально, пока вы не потеряете еще одну. Если вы потеряете второй диск, вы окажетесь на N-1 и ваша вселенная схлопывается (или, по крайней мере, вы теряете много данных).

Как сказал SvenW, замените диск КАК МОЖНО СКОРЕЕ (Следуйте инструкциям вашего дистрибутива по замене дисков в RAID-массивах MD, и, ради бога, убедитесь, что вы заменили верный диск! Вытаскивание одного из активных дисков действительно испортит вам день.)
Также имейте в виду, что при замене диска в RAID 5 возникает значительная дисковая активность, поскольку новый диск перестраивается (много операций чтения на старых дисках, много операций записи на новом). Это имеет два основных последствия:

  1. Ваша система будет работать медленно во время восстановления.
    Насколько медленна, зависит от ваших дисков и подсистемы дискового ввода-вывода.

  2. Вы можете потерять другой диск во время / вскоре после восстановления.
    (Весь этот дисковый ввод-вывод иногда вызывает достаточно ошибок от другого диска, что контроллер объявляет его «плохим»).

Шансы на № 2 увеличиваются по мере того, как в вашем массиве появляется больше дисков, и он следует стандартной «кривой ванны» смертности жестких дисков. Это одна из причин, по которой вам следует иметь резервную копию, и одна из многих причин, по которым вы слышите мантру «RAID - это не резервное копирование "повторяется так часто на ServerFault.

Даже если /dev/sda1 похоже, работает нормально в md0 сейчас, тот факт, что другой раздел на том же диске (sda2) неисправен, что ухудшает состояние привода. Я должен согласиться с другими уже высказанными здесь мнениями: заменить sda водить машину немедленно.

Конечно, это означает, что вам нужно будет mdadm --fail и mdadm --remove раздел sda1 из массива md0, хотя это появляется быть в порядке прямо сейчас. И когда вы устанавливаете новый диск, вам нужно будет убедиться, что его разделы не меньше, чем на старом диске, чтобы его разделы можно было правильно добавить в md0 и md1 массивы.