Сегодня вечером я плохо провела время. Мне пришлось перенести LVM2 LVM2 с одного PV на другой (исходный PV, поддерживаемый сохраненным виртуальным диском NFS, целевой PV, поддерживаемый iscsi LUN). Перемещение небольших LV этого VG (несколько гигабит) прошло нормально, но у меня был LV на 400 ГБ, и через некоторое время мой гость достиг более 150 loadavg, до точки, где он застрял, и мне пришлось его жестко перезагрузить.
Я попытался возобновить pvmove после удвоения памяти и размера процессора (16 ГБ и 4vcpu). Практически сразу нагрузка пошла очень высоко. Достигнув 60 из 5 минут loadavg, я решил убить процесс pvmove (скрещивая пальцы). Процесс был остановлен должным образом, или, по крайней мере, его больше не было в таблице процессов согласно ps и top, но нагрузка продолжала расти. Достигнув более 90, прежде чем я решил, что перезагрузка - мой единственный вариант. Хотя процесс pvmove больше не выполнялся, нагрузка никогда не уменьшалась, и ЦП почти исключительно ждал операций ввода-вывода, как показано ниже (вероятно, через 40 минут после того, как я убил процесс, который работал в течение максимум 5 минут).
top - 21:18:44 up 12:26, 1 user, load average: 93.07, 92.53, 89.07
Tasks: 405 total, 1 running, 402 sleeping, 2 stopped, 0 zombie
Cpu(s): 0.1%us, 0.1%sy, 0.0%ni, 0.0%id, 99.8%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 16021672k total, 15363796k used, 657876k free, 427060k buffers
Swap: 2095100k total, 36k used, 2095064k free, 11856520k cached
У меня все еще был открытый и отзывчивый ssh-терминал. Действия с файловой системой казались довольно отзывчивыми (listng dir), но перезапуск демона занял действительно много времени, и было невозможно открыть новые соединения ssh.
Есть ли у кого-нибудь объяснение такого поведения и, в частности, почему нагрузка все еще увеличивается, а процесса больше нет?
Я подозреваю, что моего инициатора iscsi недостаточно для таких операций. Но мне не терпится узнать об опыте кого-нибудь еще по таким темам. P.S: Я нашел этот похожий вопрос, но на него нет четкого ответа imho:
https://serverfault.com/questions/268907/high-load-and-oom-killer-on-domus- while-pvmove#знак равно
С уважением.
Видите это значение ~ 99% wa? Это твоя проблема. Вы сталкиваетесь с тяжелая форма конкуренция за ресурсы в вашей подсистеме хранения.
Вам нужно будет реализовать некоторый мониторинг, чтобы вы могли собирать метрики и определять, является ли узкое место на уровне сети, на уровне физического диска или где-то еще.