У нас есть главный экземпляр базы данных, размещенный на AWS Aurora (mysql), и с него реплицируется множество ведомых устройств, доступных только для чтения. Ведущее устройство и 4-12 ведомых с автомасштабированием в настоящее время db.r4.4xlarge размер и версия двигателя: 5.7.12.
Каждое ведомое устройство подключается к сети и работает в течение нескольких дней, но с течением времени его загрузка ЦП медленно увеличивается, пока каждый из них не будет отключен по отдельности. После убийства другой автоматически раскручивается и продолжается.
Вот график производительности ведомых устройств:
Как видите, в 23:00 наш склад закрывается, а загрузка ЦП снижается до следующего дня, когда она резко возрастает и поднимается выше, чем в предыдущий день. Он увеличивается день ото дня, пока не достигнет 100%, и его нужно убить.
Кто-нибудь из вас, ребята, видел этот паттерн раньше и мог бы намекнуть, в чем может заключаться проблема?
Рекомендую включить Аналитика производительности Amazon RDS чтобы получить советы о том, что может потреблять процессор.
При таких симптомах и если нет подсказки по трафику SQL, было бы полезно использовать Linux "perf" для определения методов, которые потребляют ресурсы ЦП (поскольку в двоичных файлах все еще есть символы - иначе чередующиеся), чтобы убедиться, что это не происходит от внутреннего управления репликацией - но его нельзя использовать с экземплярами RDS.