Назад | Перейти на главную страницу

Перенос данных 300 ГБ с Linux Server в S3 Bucket

У меня есть выделенный сервер Linux с 300 ГБ загруженных файлов, которые мне нужно передать в AWS Storage S3, так как теперь я меняю загрузки, которые будут сохраняться в корзине S3 вместо локального диска. Я прочитал, что могу выполнить перенос с помощью команды aws cli, чтобы скопировать каталог в корзину S3. Мои вопросы:

  1. Когда я делаю cp команда из aws cli, сколько примерно времени может потребоваться выделенному серверу для передачи 300 ГБ данных в корзину S3? И S3, и сервер находятся в одном регионе.

Это мои спецификации сервера:

RAID Policy Raid 1
Operating System    Cloud Linux
HDD Bay 1   480GB SSD
HDD Bay 2   480GB SSD
Network Bandwidth   10TB
CPU 6 Core E5-2620v2 - 2.00Ghz x2
RAM 64 GB

Я полностью понимаю, что существует много переменных, но хочу получить представление о приблизительной оценке от людей, которые перенесли данные с сервера Linux в хранилище S3.

  1. Когда я использую aws cli cp команда, показывает ли прогресс за это время? Что произойдет, если я отключусь от SSH, когда команда все еще выполняется?

  2. Мне безопаснее запускать aws cli? cp команда с использованием screen команда?

  3. Будет ли снижена производительность сервера во время переноса? На этом сервере работает несколько веб-сайтов, поэтому нужно ли мне переводить сайт в автономный режим во время передачи данных, или я могу безопасно запустить передачу, даже когда сайты работают?

300 ГБ - это не так уж и много. Диски SSD могут выполнять чтение со скоростью около 100 МБ / с, а если вы находитесь в сети 1 Гбит / с, это также примерно 100 МБ / с. Таким образом, на загрузку ваших 300 ГБ потребуется около часа.

Да, он покажет прогресс, да, запустите его screen и да, он загрузит сервер. С другой стороны, всего на час.

Надеюсь, это поможет :)

Ответ MLu хорош, это скорее дополнение, чем его ответ.

Как сказал MLu, 300 ГБ - это немного и не займет много времени. Я скопировал 1 ТБ из Новой Зеландии в Сидней S3 по соединению с задержкой 35 мс и доступной пропускной способностью около 350 Мбит / с, из памяти потребовалось около 4-6. Вероятно, у вас больше пропускная способность и меньше задержек. Используя около 80 потоков, он использовал из памяти около 100% ядра Xeon, так что немного.

Вы могли бы рассмотреть s3 синхронизация команду, как если бы вам нужно было остановить ее, вы можете легко перезапустить ее снова, чем перезапускать копию.

На загруженном производственном сервере я бы настроил файл конфигурации s3 что-то вроде этого. Это снизит пропускную способность и использование ЦП за счет скорости. Это входит в ~ .aws \ configure или c: \ users \ username.aws \ config. Если вы используете профиль CLI, он входит в этот профиль, а не по умолчанию.

Конфигурация для нескольких больших файлов

[default]
region = us-west-2 
output = json
s3 =
  max_bandwidth = 50MB/s
  max_concurrent_requests = 5
  max_queue_size = 100
  multipart_chunksize = 75MB
  multipart_threshold = 200MB

Конфиг для множества маленьких файлов

[default]
region = us-west-2 
output = json
s3 =
  max_bandwidth = 50MB/s
  max_concurrent_requests = 5
  max_queue_size = 1000
  multipart_chunksize = 75MB
  multipart_threshold = 100MB

Это снижает ЦП / пропускную способность по сравнению с 10 параллельными запросами по умолчанию, размером очереди 1000 и накладывает ограничение на пропускную способность 50 МБ / с (400 Мбит / с). Настройте их, как хотите - 10 потоков может подойти. Я обычно загружаю большие файлы данных размером 1 ГБ или более, поэтому я использую большие фрагменты и меньшую очередь, но если ваши файлы меньше, удалите последние три строки.

Двое прямо отвечают на ваши вопросы

  1. От одного до четырех часов

  2. Да. Используйте "s3 sync", чтобы вам было легче перезапустить. Если вы запустите, например, "s3: // bucket-name / \ opt \ data &" (обратите внимание на &), я думаю, что он продолжит работу, если ваш сеанс ssh прервется.

  3. Понятия не имею - MLu говорит да

  4. Как я уже сказал выше, я использовал 60-80 потоков и примерно одно полное ядро ​​Xeon. Если вы используете меньше потоков, он будет использовать меньше ресурсов. В целом это не очень ресурсоемко. Это довольно интенсивно в течение первых нескольких минут, когда он ставит файлы в очередь, затем иногда происходит скачок ЦП, когда он ставит в очередь больше файлов.