У меня есть сервер под управлением Debian Squeeze и система RAID5 с 3 дисками по 500 ГБ, которую я сам не настраивал. При загрузке состояние одного раздела в RAID-массиве кажется плохим.
md: bind<sda2>
md: bind<sdc2>
md: bind<sdb2>
md: kicking non-fresh sda2 from array!
md: unbind<sda2>
md: export_rdev(sda2)
raid5: device sdb2 operational as raid disk 1
raid5: device sdc2 operational as raid disk 2
raid5: allocated 3179kB for md1
1: w=1 pa=0 pr=3 m=1 a=2 r=3 op1=0 op2=0
2: w=2 pa=0 pr=3 m=1 a=2 r=3 op1=0 op2=0
raid5: raid level 5 set md1 active with 2 out of 3 devices, algorithm 2
RAID5 conf printout:
--- rd:3 wd:2
disk 1, o:1, dev:sdb2
disk 2, o:1, dev:sdc2
md1: detected capacity change from 0 to 980206485504
md1: unknown partition table
mdstat
также сообщает мне, что раздел отсутствует:
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : active raid5 sdb2[1] sdc2[2]
957232896 blocks level 5, 64k chunk, algorithm 2 [3/2] [_UU]
md0 : active raid1 sda1[0] sdc1[2](S) sdb1[1]
9767424 blocks [2/2] [UU]
При беге sudo mdadm -D
, раздел отображается как удаленный, а массив как поврежденный.
/dev/md1:
Version : 0.90
Creation Time : Mon Jun 30 00:09:01 2008
Raid Level : raid5
Array Size : 957232896 (912.89 GiB 980.21 GB)
Used Dev Size : 478616448 (456.44 GiB 490.10 GB)
Raid Devices : 3
Total Devices : 2
Preferred Minor : 1
Persistence : Superblock is persistent
Update Time : Thu Aug 11 16:58:50 2011
State : clean, degraded
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 64K
UUID : 03205c1c:cef34d5c:5f1c2cc0:8830ac2b
Events : 0.275646
Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 18 1 active sync /dev/sdb2
2 8 34 2 active sync /dev/sdc2
/dev/md0:
Version : 0.90
Creation Time : Mon Jun 30 00:08:50 2008
Raid Level : raid1
Array Size : 9767424 (9.31 GiB 10.00 GB)
Used Dev Size : 9767424 (9.31 GiB 10.00 GB)
Raid Devices : 2
Total Devices : 3
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Thu Aug 11 17:21:20 2011
State : active
Active Devices : 2
Working Devices : 3
Failed Devices : 0
Spare Devices : 1
UUID : f824746f:143df641:374de2f8:2f9d2e62
Events : 0.93
Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1
2 8 33 - spare /dev/sdc1
Тем не мение, md0
вроде нормально. Итак, что все это мне говорит? Может ли диск быть неисправным, хотя md0
работает? Если нет, могу я просто заново добавить /dev/sda2
к md1
массив для решения проблемы?
Сохранение работы массива со сломанным диском - точная цель RAID5. Он хранит информацию о избыточности, поэтому вы можете потерять один диск и при этом не потерять данные.
Я бы порекомендовал заменить диск как можно скорее, потому что, если вы потеряете другой диск, все ваши данные исчезнут.
В р в RAID означает робразованный.
RAID 5 - это N+1 redundant
: Если вы потеряете один диск, вы находитесь N
- Система будет работать нормально, пока вы не потеряете еще одну. Если вы потеряете второй диск, вы окажетесь на N-1
и ваша вселенная схлопывается (или, по крайней мере, вы теряете много данных).
Как сказал SvenW, замените диск КАК МОЖНО СКОРЕЕ (Следуйте инструкциям вашего дистрибутива по замене дисков в RAID-массивах MD, и, ради бога, убедитесь, что вы заменили верный диск! Вытаскивание одного из активных дисков действительно испортит вам день.)
Также имейте в виду, что при замене диска в RAID 5 возникает значительная дисковая активность, поскольку новый диск перестраивается (много операций чтения на старых дисках, много операций записи на новом). Это имеет два основных последствия:
Ваша система будет работать медленно во время восстановления.
Насколько медленна, зависит от ваших дисков и подсистемы дискового ввода-вывода.
Вы можете потерять другой диск во время / вскоре после восстановления.
(Весь этот дисковый ввод-вывод иногда вызывает достаточно ошибок от другого диска, что контроллер объявляет его «плохим»).
Шансы на № 2 увеличиваются по мере того, как в вашем массиве появляется больше дисков, и он следует стандартной «кривой ванны» смертности жестких дисков. Это одна из причин, по которой вам следует иметь резервную копию, и одна из многих причин, по которым вы слышите мантру «RAID - это не резервное копирование "повторяется так часто на ServerFault.
Даже если /dev/sda1
похоже, работает нормально в md0
сейчас, тот факт, что другой раздел на том же диске (sda2
) неисправен, что ухудшает состояние привода. Я должен согласиться с другими уже высказанными здесь мнениями: заменить sda
водить машину немедленно.
Конечно, это означает, что вам нужно будет mdadm --fail
и mdadm --remove
раздел sda1
из массива md0
, хотя это появляется быть в порядке прямо сейчас. И когда вы устанавливаете новый диск, вам нужно будет убедиться, что его разделы не меньше, чем на старом диске, чтобы его разделы можно было правильно добавить в md0
и md1
массивы.