Назад | Перейти на главную страницу

Очень высокая нагрузка во время pvmove в domU

Сегодня вечером я плохо провела время. Мне пришлось перенести LVM2 LVM2 с одного PV на другой (исходный PV, поддерживаемый сохраненным виртуальным диском NFS, целевой PV, поддерживаемый iscsi LUN). Перемещение небольших LV этого VG (несколько гигабит) прошло нормально, но у меня был LV на 400 ГБ, и через некоторое время мой гость достиг более 150 loadavg, до точки, где он застрял, и мне пришлось его жестко перезагрузить.

Я попытался возобновить pvmove после удвоения памяти и размера процессора (16 ГБ и 4vcpu). Практически сразу нагрузка пошла очень высоко. Достигнув 60 из 5 минут loadavg, я решил убить процесс pvmove (скрещивая пальцы). Процесс был остановлен должным образом, или, по крайней мере, его больше не было в таблице процессов согласно ps и top, но нагрузка продолжала расти. Достигнув более 90, прежде чем я решил, что перезагрузка - мой единственный вариант. Хотя процесс pvmove больше не выполнялся, нагрузка никогда не уменьшалась, и ЦП почти исключительно ждал операций ввода-вывода, как показано ниже (вероятно, через 40 минут после того, как я убил процесс, который работал в течение максимум 5 минут).

top - 21:18:44 up 12:26,  1 user,  load average: 93.07, 92.53, 89.07
Tasks: 405 total,   1 running, 402 sleeping,   2 stopped,   0 zombie
Cpu(s):  0.1%us,  0.1%sy,  0.0%ni,  0.0%id, 99.8%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  16021672k total, 15363796k used,   657876k free,   427060k buffers
Swap:  2095100k total,       36k used,  2095064k free, 11856520k cached

У меня все еще был открытый и отзывчивый ssh-терминал. Действия с файловой системой казались довольно отзывчивыми (listng dir), но перезапуск демона занял действительно много времени, и было невозможно открыть новые соединения ssh.

Есть ли у кого-нибудь объяснение такого поведения и, в частности, почему нагрузка все еще увеличивается, а процесса больше нет?

Я подозреваю, что моего инициатора iscsi недостаточно для таких операций. Но мне не терпится узнать об опыте кого-нибудь еще по таким темам. P.S: Я нашел этот похожий вопрос, но на него нет четкого ответа imho:

https://serverfault.com/questions/268907/high-load-and-oom-killer-on-domus- while-pvmove#знак равно

С уважением.

Видите это значение ~ 99% wa? Это твоя проблема. Вы сталкиваетесь с тяжелая форма конкуренция за ресурсы в вашей подсистеме хранения.

Вам нужно будет реализовать некоторый мониторинг, чтобы вы могли собирать метрики и определять, является ли узкое место на уровне сети, на уровне физического диска или где-то еще.