У меня есть экземпляр Amazon EC2 (c1.medium, ami-ed46a784), который испытывает короткие всплески средней нагрузки каждые 32 часа или около того. Средняя нагрузка обычно составляет около 0,15, но возрастает до 3+ примерно за 15 минут во время этих всплесков. В течение этого времени не наблюдается увеличения использования ЦП, дискового трафика, использования подкачки, прерываний IRQ, трафика apache или любых других показателей, о которых сообщает моя установка collectd. Отключение всех заданий cron, которые я добавил в базовую установку, не повлияло. Этот экземпляр работает повар, apache, mysql, couchdb, memcached и сложный сервис python - все они в настоящее время получают очень мало трафика.
Ниже приведены некоторые данные, собранные во время одного из этих всплесков:
/usr/bin/top output: top - 14:31:00 up 65 days, 20:48, 1 user, load average: 3.00, 2.13, 1.01 Tasks: 125 total, 1 running, 124 sleeping, 0 stopped, 0 zombie Cpu(s): 0.8%us, 0.5%sy, 0.0%ni, 98.0%id, 0.2%wa, 0.0%hi, 0.1%si, 0.4%st Mem: 1788724k total, 1723448k used, 65276k free, 179284k buffers Swap: 917496k total, 124k used, 917372k free, 680404k cached ...process with the most CPU usage has just 4%...
/usr/bin/iostat output: Linux 2.6.21.7-2.fc8xen (foo.example.com) 11/08/09 _i686_ (2 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.78 0.00 0.80 0.19 0.42 97.95 Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn sda2 0.00 0.00 0.01 8762 74472 sda3 0.00 0.00 0.00 944 288 sda1 19.29 0.24 242.63 1354218 1380794096 sdb 0.34 0.07 6.50 393928 36997032
/usr/bin/mpstat output: Linux 2.6.21.7-2.fc8xen (foo.example.com) 11/08/09 _i686_ (2 CPU) 14:31:00 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %idle 14:31:00 all 0.78 0.00 0.51 0.19 0.00 0.14 0.42 0.00 97.95
/usr/bin/free -m output: total used free shared buffers cached Mem: 1746 1683 63 0 175 664
Возможно ли, что чей-то другой экземпляр на том же физическом хосте мог вызвать эти всплески? Есть ли какие-либо другие данные, которые я должен попытаться собрать во время всплеска, которые помогли бы диагностировать проблему? Что еще может способствовать средней нагрузке?
Эта проблема также опубликовал на форуме AWS.
Обновление # 1
Я также собрал данные, используя dstat и опубликовал это Вот. Насколько я могу судить, он не показывает ничего, что вызывает нагрузку.
Я бы проверил cronjobs, запущенные на вашем хосте. Фактически, если у вас есть virt и на том же физическом хосте есть другой virt, например, использующий полосу пропускания дисков sata, и вы хотите одновременно записывать на диск, это может вызвать большую нагрузку, чем обычно, это было бы на одном невиртуализированная, не разделяемая среда. Это верно для любой операции ввода-вывода. Кстати. не могли бы вы нажать 1, когда вы находитесь в топе, чтобы увидеть все ядра. Кажется, что на вашем хосте нет реальной нагрузки, по крайней мере, нет IOwait или какой-либо причины, по которой мы можем видеть загрузку 3.00. Мне любопытно, что вы видите на обоих ядрах, которые у вас есть. Также, если вы можете установить dstat и запустить его, чтобы проверить, что происходит.