У нас есть сервер MySQL, работающий на экземпляре Amazon EC2 c1.medium, использующий один том EBS с файловой системой ext3 для хранения.
Этот сервер MySQL запрашивается ~ 500 / пс несколькими приложениями, работающими на некоторых веб-серверах, которые также находятся на Amazon EC2.
Как вы можете видеть ниже, средняя загрузка сервера и время простоя процессора кажутся нормальными, но что-то меня беспокоит и беспокоит прямо сейчас, а именно высокий уровень iowait, который он испытывает.
Еще одно число, которое меня сильно беспокоило, - это количество передач iostat в секунду (tps), которое большую часть времени остается выше 450. Проведя небольшое исследование по этой теме, я заметил, что некоторые люди говорили, что это слишком много для EBS: https://forums.aws.amazon.com/thread.jspa?threadID=30769
Кстати, выходные данные команд, которые вы увидите ниже, не были записаны в пиковое время. Именно так сервер ведет себя большую часть времени.
Что ж, все сказано, вот мои вопросы:
1- Не пора ли подумать о переходе на архитектуру RAID (я бы сказал, RAID 0)?
2- Стоит ли тратить время на решение для кластеризации, такое как MySQL Cluster?
3- Считаете ли вы, что такой сценарий сильно влияет на наши приложения? Будут ли они работать намного лучше, если мы перейдем к RAID 0 и / или кластерному решению? (Кажется, что приложения пока что довольны, но будут ли они счастливее?)
Пожалуйста, дайте мне знать, если вам понадобится дополнительная информация.
~ # uptime
12:34:14 up 2 days, 4:06, 1 user, load average: 2.24, 1.90, **1.84**
########################################################
~ # vmstat 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b swpd free buff cache si so bi bo in cs us sy id **wa** st
0 1 52 11168 16420 1498728 0 0 4586 231 11 81 6 3 52 39 0
2 1 52 10460 16320 1499588 0 0 11631 397 3194 4319 10 4 47 39 0
4 1 52 11448 16064 1499156 0 0 12231 592 2301 3331 9 5 50 36 0
4 0 52 10328 16068 1500176 0 0 8578 392 2131 2745 8 6 49 37 0
0 1 52 11164 15732 1499928 0 0 9604 578 2609 3510 7 4 49 40 0
0 1 52 10824 15768 1499836 0 0 5038 634 1912 2509 8 3 47 42 0
3 1 52 12040 15888 1498096 0 0 5068 204 1927 2531 10 8 45 37 0
8 2 52 11252 15784 1499272 0 0 8521 390 2437 3100 14 15 39 31 0
1 2 52 11436 15724 1499748 0 0 8287 401 2159 3113 11 10 42 36 1
0 1 52 12016 15704 1498752 0 0 11576 499 3324 3984 16 17 31 36 0
1 1 52 10536 15664 1500508 0 0 8430 718 2686 3265 15 14 37 34 0
1 1 52 10300 15676 1500744 0 0 10186 720 2488 3488 16 5 45 34 0
########################################################
~ # iostat -dm 5 /dev/sdf
Linux 2.6.21.7-2.fc8xen (database-new) 01/20/12
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 464.81 8.84 0.33 1658860 61390
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 402.20 7.39 0.43 36 2
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 431.40 7.74 0.32 38 1
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 461.40 8.26 0.39 41 1
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 475.65 9.20 0.29 46 1
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 534.80 9.82 0.52 49 2
Device: tps MB_read/s MB_wrtn/s MB_read MB_wrtn
sdf 526.60 9.97 0.52 49 2
########################################################
~ # iostat -mdx 5 /dev/sdf
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 22.21 46.28 427.47 37.54 8.84 0.33 40.38 1.78 3.82 1.72 79.87
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 22.36 80.04 450.30 60.48 9.29 0.55 39.44 1.45 2.85 1.58 80.48
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 23.40 43.60 370.60 47.00 7.75 0.35 39.76 1.45 3.47 1.97 82.08
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 20.20 33.20 382.60 29.60 8.02 0.25 41.05 1.31 3.17 2.11 87.12
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 28.80 35.20 422.40 33.40 9.04 0.27 41.80 1.45 3.19 1.95 88.96
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 14.20 45.00 291.80 51.40 5.97 0.38 37.86 1.45 4.22 2.50 85.68
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 19.16 56.89 535.33 41.32 11.44 0.38 42.00 1.49 2.59 1.53 88.46
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sdf 20.40 81.40 233.00 64.40 4.86 0.57 37.39 1.74 5.84 3.18 94.72
################################################## my.cnf [mysqld]
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
user=mysql
long_query_time=1
key_buffer = 64M
thread_cache_size = 30
table_cache = 1024
table_definition_cache = 512
query_cache_type = 1
query_cache_size = 64M
tmp_table_size = 64M
max_heap_table_size = 64M
innodb_buffer_pool_size = 512M
old_passwords=1
max_connections=400
wait_timeout=30
[mysqld_safe]
log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid
[ndbd]
connect-string="nodeid=2;host=localhost:1186"
[ndb_mgm]
connect-string="host=localhost:1186"
################################################## sundry's tuning script output ~ # ./tuning-primer.sh
-- MYSQL PERFORMANCE TUNING PRIMER --
- By: Matthew Montgomery -
MySQL Version 5.1.52 i686
Uptime = 0 days 1 hrs 1 min 1 sec
Avg. qps = 517
Total Questions = 1894942
Threads Connected = 94
Warning: Server has not been running for at least 48hrs.
It may not be safe to use these recommendations
To find out more information on how each of these
runtime variables effects performance visit:
http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html
Visit http://www.mysql.com/products/enterprise/advisors.html
for info about MySQL's Enterprise Monitoring and Advisory Service
SLOW QUERIES
The slow query log is NOT enabled.
Current long_query_time = 1.000000 sec.
You have 207 out of 1894981 that take longer than 1.000000 sec. to complete
Your long_query_time seems to be fine
BINARY UPDATE LOG
The binary update log is NOT enabled.
You will not be able to do point in time recovery
See http://dev.mysql.com/doc/refman/5.1/en/point-in-time-recovery.html
WORKER THREADS
Current thread_cache_size = 30
Current threads_cached = 8
Current threads_per_sec = 0
Historic threads_per_sec = 0
Your thread_cache_size is fine
MAX CONNECTIONS
Current max_connections = 400
Current threads_connected = 93
Historic max_used_connections = 195
The number of used connections is 48% of the configured maximum.
Your max_connections variable seems to be fine.
INNODB STATUS
Current InnoDB index space = 1.33 G
Current InnoDB data space = 5.04 G
Current InnoDB buffer pool free = 0 %
Current innodb_buffer_pool_size = 512 M
Depending on how much space your innodb indexes take up it may be safe
to increase this value to up to 2 / 3 of total system memory
MEMORY USAGE
Max Memory Ever Allocated : 1.13 G
Configured Max Per-thread Buffers : 1.04 G
Configured Max Global Buffers : 642 M
Configured Max Memory Limit : 1.67 G
Physical Memory : 1.70 G
Max memory limit exceeds 90% of physical memory
KEY BUFFER
Current MyISAM index space = 379 M
Current key_buffer_size = 64 M
Key cache miss rate is 1 : 162
Key buffer free ratio = 80 %
Your key_buffer_size seems to be fine
QUERY CACHE
Query cache is enabled
Current query_cache_size = 64 M
Current query_cache_used = 43 M
Current query_cache_limit = 1 M
Current Query cache Memory fill ratio = 67.44 %
Current query_cache_min_res_unit = 4 K
MySQL won't cache query results that are larger than query_cache_limit in size
SORT OPERATIONS
Current sort_buffer_size = 2 M
Current read_rnd_buffer_size = 256 K
Sort buffer seems to be fine
JOINS
Current join_buffer_size = 132.00 K
You have had 4013 queries where a join could not use an index properly
You should enable "log-queries-not-using-indexes"
Then look for non indexed joins in the slow query log.
If you are unable to optimize your queries you may want to increase your
join_buffer_size to accommodate larger joins in one pass.
Note! This script will still suggest raising the join_buffer_size when
ANY joins not using indexes are found.
OPEN FILES LIMIT
Current open_files_limit = 2458 files
The open_files_limit should typically be set to at least 2x-3x
that of table_cache if you have heavy MyISAM usage.
Your open_files_limit value seems to be fine
TABLE CACHE
Current table_open_cache = 1024 tables
Current table_definition_cache = 512 tables
You have a total of 45237 tables
You have 1024 open tables.
Current table_cache hit rate is 0%
, while 100% of your table cache is in use
You should probably increase your table_cache
You should probably increase your table_definition_cache value.
TEMP TABLES
Current max_heap_table_size = 64 M
Current tmp_table_size = 64 M
Of 38723 temp tables, 44% were created on disk
Perhaps you should increase your tmp_table_size and/or max_heap_table_size
to reduce the number of disk-based temporary tables
Note! BLOB and TEXT columns are not allow in memory tables.
If you are using these columns raising these values might not impact your
ratio of on disk temp tables.
TABLE SCANS
Current read_buffer_size = 128 K
Current table scan ratio = 537 : 1
read_buffer_size seems to be fine
TABLE LOCKING
Current Lock Wait ratio = 1 : 954
You may benefit from selective use of InnoDB.
If you have long running SELECT's against MyISAM tables and perform
frequent updates consider setting 'low_priority_updates=1'
If you have a high concurrency of inserts on Dynamic row-length tables
consider setting 'concurrent_insert=2'.
Было бы полезно, если бы вы разместили свой my.cnf и используете ли вы таблицы InnoDB или MyISAM, и независимо от того, интенсивно ли вы загружаете или пишете. В противном случае мы просто гадаем. Вот мои:
Сначала я бы посмотрел и убедился, что ваши запросы правильно проиндексированы. Высокий объем операций ввода-вывода в базах данных MySQL вызван либо чрезвычайно высокой степенью параллелизма, плохо настроенным сервером, либо плохо выполняющимися запросами, которые должны выполнять полное сканирование таблиц или индексов. Некоторые подсказки о том, как найти неэффективные запросы, можно найти в моем сообщение в техническом блоге Ideeli.
Проверьте свой my.cnf. Если вы используете InnoDB, убедитесь, что innodb_buffer_pool_size и innodb_log_file_size достаточно большие. Поскольку EBS имеет такую переменную задержку, максимальное увеличение innodb_log_file_size может иметь существенные преимущества в производительности. Если вы используете MyISAM (а вам не следует этого делать), убедитесь, что размер вашего key_buffer достаточно велик.
Если вы уверены, что ваши запросы хорошо оптимизированы, а ваш сервер хорошо настроен, мы можем перейти к следующему пункту. ext3 далеко не идеален для баз данных. Одна из основных причин этого заключается в том, что ext3 позволяет только одному потоку обновлять индексный дескриптор за раз (пытаясь найти для этого документацию). Если вы не используете innodb-file-per-table, это означает, что существует множество конфликтов файловой системы для файла ibdata. xfs не имеет этого ограничения и, как было показано, работает намного лучше (нужен источник) для рабочих нагрузок базы данных.
Если вы не можете перейти на xfs, убедитесь, что вы используете innodb-file-per-table и, как минимум, убедитесь, что на монтировании установлены noatime, nodiratime.
Затем перейдем к размеру вашего экземпляра. C1.medium - не идеальный размер экземпляра для большинства баз данных, если только набор данных не маленький. MySQL обычно выигрывает от памяти над вычислительной мощностью. c1.medium имеет всего 1,7 ГБ ОЗУ! Насколько велик ваш набор данных? Как правило, m1.large (с 7,5 ГБ ОЗУ) превосходит c1.medium, за исключением очень редких случаев. Кроме того, это вдвое дороже - 0,34 доллара в час.
Теперь о RAID томов EBS. Да, RAID значительно увеличит ваши IOPS. (Как и увеличение размера вашего экземпляра). Не RAID0... По крайней мере, если вам небезразличны ваши данные. Я объяснял это во многих местах, в том числе на мой блог, как докладчик на Percona Live NYC в 2011 году, и здесь на serverfault. Вкратце, тома EBS выходят из строя нетипичными способами, и возможность удалить том из набора оказалась полезной в некоторых случаях, особенно во время большого отключения EBS в 2011 году, когда некоторые сайты были отключены в течение нескольких дней ... Мы были в автономном режиме 45 минут в 4 часа утра, несмотря на то, что проблема EBS затронула десятки экземпляров.
Вот несколько тестов для томов EBS с RAID с использованием MySQL.
В заключение, Сервер Percona имеет огромное количество оптимизаций масштабируемости. Вот белая книга об опыте моей компании при переходе с MySQL на Percona Server. Каждый день мы сталкивались с остановками и отключениями баз данных. Простое переключение на Percona Server с MySQL решило эту проблему буквально в мгновение ока благодаря ряду улучшений масштабируемости.
Итак, в итоге ...
Что касается MySQL Cluster, это совершенно другое животное, чем MySQL, и обычно не подходит для большинства приложений OLTP. Галера/Кластер Percona XtraDB также являются новыми и интересными продуктами кластеризации. У тебя есть много вариантов, прежде чем вы перейдете к любому из них. Мы обслужили 24k qps на пике от одного m2.4xlarge с RAID10 в EC2.
Удачи!
Это проблема, с которой столкнулись многие и многие компании, и ее решения довольно хорошо обсуждаются на различных онлайн-форумах.
Обычно для увеличения потенциального iops два или более тома EBS объединяются в массив RAID0. Однако это не без риска. Как вы знаете, с RAID0 все, что нужно, - это чтобы на одном из томов EBS возникла проблема, и ваши данные стали всплывать. Таким образом, вы можете рассмотреть возможность использования более устойчивого уровня RAID, например, RAID 10.
Поскольку 500gps - это довольно небольшая нагрузка на сервер sql, я предлагаю посмотреть процент временных таблиц, созданных на диске, и начать оптимизацию ваших запросов и настроек сервера MySQL.
1. Не используйте подход Raid0, в конечном итоге он выйдет из строя, и вы пожалеете об этом.
2, Нет, при таком низком количестве запросов в секунду вам не нужен MySQL Cluster.
3, Да, это, безусловно, влияет на производительность приложения, чтобы измерить, насколько вы можете включить журнал медленной работы, и убедитесь сами.
Сколько памяти сейчас использует mysql, осталось ли свободное пространство?
Если нет, вам следует подумать о переключении на более крупный экземпляр и начать оптимизацию настроек с помощью любого скрипта настройки mysql:
http://www.day32.com/MySQL/tuning-primer.sh
3- Считаете ли вы, что такой сценарий сильно влияет на наши приложения? Будут ли они работать намного лучше, если мы перейдем к RAID 0 и / или кластерному решению?
Поскольку вы используете SQL-сервер, было бы разумнее взглянуть на метрики SQL-сервера, чтобы узнать, быстро ли обслуживаются запросы. Глядя на ваше однозначное среднее время ожидания запроса (ожидание), я не думаю, что ввод-вывод будет серьезной проблемой.
Кроме того, поскольку вы в основном видите нагрузку на чтение, вы можете уменьшить ее, увеличив размер кеша / увеличив объем ОЗУ и настроив параметры кеша вашего экземпляра MySQL. Я ожидал, что это окажет значительно большее влияние на производительность, чем изменение вашего хранилища для обработки большего количества операций ввода-вывода.