Мы запускаем приложение в JBoss EAP на RHEL 6.7, и производительность в кластере существенно различается. Из 8 виртуальных машин большинство будет отвечать на запросы в течение ~ 200 мс, но одна или две будут иметь время ответа 2 или 4 секунды.
Исследуя проблему, мы обнаружили с помощью vmstat, что более медленные серверы сообщают о сотнях тысяч системных прерываний каждые 5 секунд по сравнению с несколькими тысячами на быстрых серверах. Перейдя в / proc / interrupts, мы увидели, что прерывания были TLB Shootdowns. От 100 до 200 тысяч из них каждые несколько секунд.
Я кое-что прочитал, чтобы понять, что это (Мне больше всего нравится это описание). Но я не знаю, где искать дальше. Почему выдаются прерывания TLB?