У меня есть экземпляр Amazon EC2 t2.medium, который показывает очень странные значения CPU Steal Time, в основном большие отрицательные числа, а также очень высокие числа простоя CPU.
Что-нибудь, что объясняет такие странные числа? Какие-либо обновления системы / исправления, которые нам здесь не хватает?
top - 13:36:23 up 51 days, 2:49, 1 user, load average: 0.35, 0.15, 0.12
Tasks: 97 total, 1 running, 96 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,56000.0%id,200.0%wa, 0.0%hi, 0.0%si,-3849124577280.0%st
Mem: 4047964k total, 3905488k used, 142476k free, 29760k buffers
Swap: 0k total, 0k used, 0k free, 269332k cached
Я думаю, что нашел это сам, похоже, это ошибка в области Kernel / Xen / Kvm, это происходит с Linux Kernel 4.8 и было исправлено в Linux Kernel 4.11. Мы запускаем 4.9.x, поэтому это влияет на нас, однако в конце концов это не настоящая ситуация с кражей, а просто неверный отчет из-за переполнения числа внутри ядра.
Видеть https://0xstubs.org/debugging-a-flaky-cpu-steal-time-counter-on-a-paravirtualized-xen-guest/ за очень хорошую рецензию.