Сегодня днем кто-то в нашем офисе решил отключить наш сервер, потому что снаружи шел шторм. Не выключили, а просто вытащили вилку, пока она работала.
Сервер имеет 4 диска SATA в программной конфигурации RAID 10 и LVM, работающий поверх RAID. Сервер работает под управлением CentOS 6.2 Minimal и является хостом виртуальной машины, использующим KVM. В то время, когда он был отключен, на компьютере было запущено много гостевых машин. У каждого гостя есть один или несколько разделов LVM, которые он использует непосредственно как жесткие диски. Гостевые разделы - EXT3, EXT4 и NTFS. ОС хоста находится в разделе EXT4.
Позже, когда электричество вернулось, этот человек снова включил его, и он запустился. Поскольку они подключили его без предварительного подключения монитора, нет возможности увидеть, что появляется на экране. Я попытался подключить монитор сейчас, но он не будет работать, если монитор не будет подключен при загрузке. Я оставил его, как есть, пока не смогу получить совет, так как я не хочу ничего напортачить (далее).
Я могу попасть на хост через SSH. Я еще не перезагружал его на случай, если в журнале есть что-то полезное.
Что мне нужно сделать, так это проверить все диски и разделы на целостность данных, если это вообще возможно. Я думаю, что RAID 10 использует какой-то кеш на основе памяти, и меня беспокоит, что диски будут несовместимыми или файлы будут повреждены, если в подсказке для записи на диск были вещи, которые еще не были записаны.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Меня также беспокоит то, что он называет мои массивы «почти копиями». Это нормально?
Какие проверки дисков я должен выполнить, чтобы убедиться, что с дисками и данными все в порядке? Есть ли еще что-нибудь, что мне следует проверить?
ОБНОВИТЬ
Вывод mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3
RAID в порядке, все UUUU означает, что все диски в массиве включены. Я бы сейчас даже не беспокоился об этом.
Что касается виртуальных машин, если вы хотите запустить на них fscks, остановите виртуальные машины и запустите
fsck.ext3 (ext4, etc) /path/to/lvm
(обычно как / dev / vg-name / lv-name)
Если вы используете KVM, вы сможете использовать virsh
делать все, что вам нужно, с виртуальными машинами. Вот ссылка на страницу руководства virsh http://linux.die.net/man/1/virsh
Если вы действительно хотите выполнить проверку диска в своих массивах рейдов, вам придется перезагрузиться в однопользовательском режиме или загрузиться с живого компакт-диска, чтобы вы могли проверить отдельные устройства / dev / mdX. Поскольку первичная файловая система - EXT4, я бы не стал беспокоиться, она намного лучше, чем EXT3 с отключениями электроэнергии.
Попробуйте mdadm --detail / dev / md0 (то же самое для md1 и md2).
Тогда попробуйте совет, данный здесь: http://linas.org/linux/raid.html