Назад | Перейти на главную страницу

Подчиненные устройства Amazon Aurora, доступные только для чтения, постепенно увеличивают до 100% ЦП и умирают

У нас есть главный экземпляр базы данных, размещенный на AWS Aurora (mysql), и с него реплицируется множество ведомых устройств, доступных только для чтения. Ведущее устройство и 4-12 ведомых с автомасштабированием в настоящее время db.r4.4xlarge размер и версия двигателя: 5.7.12.

Каждое ведомое устройство подключается к сети и работает в течение нескольких дней, но с течением времени его загрузка ЦП медленно увеличивается, пока каждый из них не будет отключен по отдельности. После убийства другой автоматически раскручивается и продолжается.

Вот график производительности ведомых устройств:

Как видите, в 23:00 наш склад закрывается, а загрузка ЦП снижается до следующего дня, когда она резко возрастает и поднимается выше, чем в предыдущий день. Он увеличивается день ото дня, пока не достигнет 100%, и его нужно убить.

Кто-нибудь из вас, ребята, видел этот паттерн раньше и мог бы намекнуть, в чем может заключаться проблема?

Рекомендую включить Аналитика производительности Amazon RDS чтобы получить советы о том, что может потреблять процессор.

При таких симптомах и если нет подсказки по трафику SQL, было бы полезно использовать Linux "perf" для определения методов, которые потребляют ресурсы ЦП (поскольку в двоичных файлах все еще есть символы - иначе чередующиеся), чтобы убедиться, что это не происходит от внутреннего управления репликацией - но его нельзя использовать с экземплярами RDS.