Я только начал использовать GCS в качестве резервной копии для своих веб-серверов. Один сервер содержит 1,2 миллиона файлов JPEG (3,5 ТБ), и все это безупречно синхронизировано в течение 10 часов или около того.
Другой имеет 2,5 миллиона файлов JPEG (только эскизы / превью - всего 300 ГБ). В первый раз, когда я сделал это, «состояние синхронизации здания» довольно быстро прошло через все 2,5 миллиона. Несколько минут. Моя сессия была прервана (Wi-Fi пропал), и когда я подключился по SSH, чтобы попытаться запустить его снова, подсказка «В исходном списке» быстро проскочила через 10000, 20000, 30000. Затем скрежет почти до полной остановки. Через полчаса всего до 300 тысяч. Я знаю, что он также должен определить, какие файлы есть в месте назначения, но я не думаю, что это должно значительно замедлить эхо «В списке источников ...»?
Указывает ли это на проблему с моей файловой системой, и если да, что мне следует проверить?
Или это ожидаемое поведение по какой-то причине?
Плохая идея использовать gsutil rsync с 2 миллионами файлов в одной корзине? Я не смог найти никаких рекомендаций от Google о том, сколько файлов может храниться в ведре, поэтому я предполагаю, что это миллиарды / неограниченно?
FWIW все файлы находятся во вложенных подкаталогах, не более 2000 файлов в одном каталоге.
Спасибо
edit: точная команда, которую я использую:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
Я обнаружил, что изменение
output_chunk.writelines(unicode(''.join(current_chunk)))
к
output_chunk.write(unicode(''.join(current_chunk)))
в /gsutil/gslib/commands/rsync.py имеет большое значение. Спасибо Майку из команды GS за его помощь - это простое изменение уже размещено на github:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2