У меня есть три сервера, все с KVM с 4-5 гостями Ubuntu Server:
На сервере №1 проблем нет. Однако на серверах №2 и №3 иногда гости переходят в «файловую систему только для чтения». Гости могут быть восстановлены без проблем во всех случаях, кроме одного, но я не могу понять причину.
Оба PE имеют PERC 6 / i, прошивки обновлены, в этом году новые диски. №2 работал нормально с января, №3 был добавлен пару месяцев спустя, но до недавнего времени его не использовали. Проблема возникла около месяца назад.
На них не установлены диски Dell. №2 имеет 2xWestern Digital WD3001BKHG-02D22, а №3 - 2xHitatchi HUC106060CSS600.
Умный статус для обеих систем становится чистым. Диагностика Dell тоже чистая.
Гости работают на virtio, формате диска RAW. Они не тяжелые. пара DNS-серверов и пара легких веб-серверов, кактусов и т. д.
Я переместил всех важных гостей в # 1, а # 3 пуст, за исключением двух гостей тестирования. Я попросил гостей тестирования запустить "stress -d 2" в течение ночи, пытаясь вызвать проблему только для чтения, но ничего не произошло.
Еще я проводил тесты производительности дисков:
Host:
Timing cached reads: 12190 MB in 2.00 seconds = 6100.67 MB/sec
Timing buffered disk reads: 480 MB in 3.01 seconds = 159.43 MB/sec
time dd if=/dev/zero of=./file.out bs=1M count=10k
10240+0 records in
10240+0 records out
10737418240 bytes (11 GB) copied, 72.2636 s, 149 MB/s
real 1m12.280s
user 0m0.019s
sys 0m13.268s
Guest:
Timing cached reads: 12434 MB in 2.00 seconds = 6222.50 MB/sec
Timing buffered disk reads: 358 MB in 3.01 seconds = 118.90 MB/sec
time dd if=/dev/zero of=./file.out bs=1M count=10k
10240+0 records in
10240+0 records out
10737418240 bytes (11 GB) copied, 70.4251 s, 152 MB/s
real 1m10.804s
user 0m0.008s
sys 0m14.792s
Я не могу найти ничего в журналах пострадавших гостей или хозяев, чтобы указать причину, и я в растерянности.
Редактировать:
Вот несколько примеров журналов OMSA:
2243 Wed Sep 24 00:23:45 2014 Storage Service The Patrol Read has stopped.: Controller 0 (PERC 6/i Integrated)
2242 Tue Sep 23 20:08:56 2014 Storage Service The Patrol Read has started.: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:55 2014 Storage Service Controller event log: Unexpected sense: PD 01(e0x20/s1) Path 5000cca03c5880d1, CDB: 12 01 dc 01 1d 00, Sense: 5/24/00: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:55 2014 Storage Service Controller event log: Unexpected sense: Encl PD 20 Path 50022090b0c9d900, CDB: 12 00 00 00 04 00, Sense: 5/24/00: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:55 2014 Storage Service Controller event log: Unexpected sense: Encl PD 20 Path 50022090b0c9d900, CDB: 12 00 00 00 04 00, Sense: 5/24/00: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:54 2014 Storage Service Controller event log: Battery temperature is normal: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:54 2014 Storage Service Controller event log: Current capacity of the battery is above threshold: Controller 0 (PERC 6/i Integrated)
2334 Tue Sep 23 15:54:54 2014 Storage Service Controller event log: Battery charge complete: Controller 0 (PERC 6/i Integrated)