Назад | Перейти на главную страницу

Кеш страницы Linux замедляет ввод-вывод на сервере с двумя процессорами и оперативной памятью 64 ГБ

У меня огромная проблема с кешем страниц Linux, который замедляет ввод-вывод. Например, если я копирую раздел lvm с помощью dd, linux кэширует данные в буферах или кешах (бесплатно –m). Это не проблема, но после того, как буфер достигает особого значения, процесс копирования останавливается и замедляется до нескольких мегабайт или даже килобайт. Я провел много тестов с записью на диск или / dev / null, проблема не имеет ничего общего с исходным диском или местом назначения.

В деталях:

Есть два почти одинаковых сервера. Оба работают под управлением CentOS 6.5 с одним и тем же ядром. У них одинаковые диски, одинаковая установка, одно и то же другое оборудование, одинаковое во всех отношениях. Единственное отличие состоит в том, что один сервер имеет 2 процессора и оперативную память 64 ГБ, а другой - 1 процессор и оперативную память 32 ГБ.
Вот также изображение следующего процесса копирования: http://i.stack.imgur.com/tYlym.jpg
Вот и новая версия с meminfo. Meminfo взят из другого прогона, поэтому значения не идентичны, но это полностью одинаковое поведение: http://i.stack.imgur.com/4SIJG.jpg
Начните копирование с помощью dd или другой программы копирования файловой системы.
Буфер или кеш начинают заполняться. Все хорошо.
Буфер или кеш достигает максимального числа (на сервере RAM 64 ГБ значение, например 32 ГБ или 17 ГБ; на сервере RAM 32 ГБ вся свободная память)
На 64-гигабайтном RAM-сервере процесс копирования теперь останавливается или ограничен несколькими мегабайтами. На сервере RAM 32GB все в порядке.
На 64-гигабайтном RAM-сервере я могу решить проблему на короткое время, заставив кешировать "sync; echo 3> / proc / sys / vm / drop_caches". Но, конечно, буфер снова начинает мгновенно расти, и проблема возникает снова.

Вывод:

Проблема связана либо со вторым процессором, либо с общим объемом памяти. У меня есть «ощущение», что проблема может заключаться в том, что каждый процессор имеет свою собственную оперативную память объемом 32 ГБ, а процесс копирования выполняется только на центральном процессоре. Итак, наконец, процесс копирования увеличил буфер / кеш почти до 32 ГБ или до неиспользуемой памяти другого процессора, а затем Linux думает, что есть еще память, поэтому позволяет нам увеличивать буфер дальше, но оборудование ниже не может получить доступ к памяти или что-то еще как это.

Есть у кого-нибудь идея или решение? Конечно, я могу использовать dd с прямым флагом, но это не решает проблему, потому что есть также внешний доступ через самбу и так далее.

РЕДАКТИРОВАТЬ1:

Здесь также / proc / zoneinfo с 64-гигабайтного RAM-сервера: 1. http://pastebin.com/uSnpQbeD (перед запуском dd) 2. http://pastebin.com/18YVTfdb (когда дд перестанет работать)

РЕДАКТИРОВАТЬ2:

Настройки ВМ: http://pastebin.com/U9E9KkFS
/ proc / sys / vm / zone_reclaim_mode был на 32-гигабайтном RAM-сервере 0 и на 64-гигабайтном RAM-сервере 1. Я никогда не касался этих значений. Установщик установил их. Я временно изменил его на 0 и повторил тест. Теперь вся память используется для буфера и кеша. Так что он отлично выглядит и похож на другой сервер. Но затем он мгновенно начинает свопинг на полной скорости ... Я установил swapiness на 0. Это помогает, но он все еще меняет несколько мегабайт в секунду. И это увеличивает буферы каждую секунду. Таким образом, он не меняет местами буфер, он меняет местами память виртуальных машин, чтобы получить больше памяти для увеличения буферов ... безумие. Но может это нормально !?

РЕДАКТИРОВАТЬ3:

/ proc / buddyinfo и numactl --hardware: http://pastebin.com/0PmXxxin

КОНЕЧНЫЙ РЕЗУЛЬТАТ

/ proc / sys / vm / zone_reclaim_mode - это, конечно, технический путь, но после этого maschine не очень хорошо работал. Например: если я копирую диск, linux теперь использует 100% свободной памяти в буфере (а не как раньше, только XGB, а затем останавливается). Но в тот момент, когда для буферизации использовалась последняя свободная память, linux начинает подкачку виртуальной памяти и увеличивает общий объем буфера и кешей. В моей системе своп обычно не нужен, поэтому память подкачки находится на том же диске, что и некоторые виртуальные машины. В результате, если сделать резервную копию этих vms, linux запишет подкачку одновременно с чтением с диска для резервной копии. Так что менять виртуальную машину местами плохо, но еще хуже то, что linux разрушает мою скорость чтения резервных копий ... Таким образом, установка / proc / sys / vm / zone_reclaim_mode на 0 не решает полную проблему ... в настоящее время я работаю в покажите сценарий, который синхронизирует и очищает кеш каждые 10 секунд ... не очень хорошо, но для меня работает намного лучше. У меня в системе нет веб-сервера или обычного файлового сервера. Я запускаю только vms, делаю бэкапы и храню бэкапы через самбу. Мне не нравится решение.

Поведение, которое вы видите, связано с тем, как Linux выделяет память в системе NUMA.

Я предполагаю (не зная), что система на 32 ГБ не является numa или недостаточно numa для Linux.

То, как обращаться с нумой, продиктовано /proc/sys/vm/zone_reclaim_mode вариант. По умолчанию Linux определит, используете ли вы систему numa, и изменит флаги восстановления, если сочтет, что это даст лучшую производительность.

Память разделена на зоны, в системе numa есть зона для первого сокета процессора и зона для второго. Они выглядят как node0 и node1. Вы можете увидеть их, если вы кошка /proc/buddyinfo.

Когда для режима восстановления зоны установлено значение 1, выделение из первого сокета ЦП вызовет восстановление в зоне памяти, связанной с этим ЦП, потому что более эффективно с точки зрения производительности восстановление из локального узла numa. Восстановление в этом смысле означает отбрасывание страниц, например очистку кеша или замену содержимого на этом узле.

Установка значения 0 приводит к тому, что восстановление не происходит, если зона заполняется, вместо этого происходит выделение в чужие зоны numa для памяти. Это происходит за счет блокировки другого ЦП для получения монопольного доступа к этой зоне памяти.

Но тут моментально начнется свопинг! через несколько секунд: Mem: всего 66004536k, использовано 65733796k, 270740k бесплатно, 34250384k буферов Swap: всего 10239992k, используется 1178820k, 9061172k бесплатно, 91388k кэшировано

Поведение подкачки и время подкачки определяется несколькими факторами, одним из которых является то, насколько активны страницы, выделенные приложениям. Если они не очень активны, они будут заменены на более загруженную работу, выполняемую в кэше. Я предполагаю, что страницы на ваших виртуальных машинах активируются не очень часто.