Я хотел бы загрузить большие файлы изображений в облако Google для целей машинного обучения на RStudio.
Размер каждого zip-файла составляет около 4,7 ГБ, и его разархивирование занимает больше времени, чем загрузка. Я хотел бы знать, есть ли способ загрузить файлы изображений в облако Google, используя текущий URL-адрес Kaggle, например: https://www.kaggle.com/c/5174/download/Images_1.zip
или https://www.kaggle.com/c/avito-duplicate-ads-detection/data
и быстро извлечь их на VM RStudio для анализа данных?
Вы установили RStudio на виртуальную машину Linux? Если это так, вы можете ssh в свой экземпляр с помощью команды sudo gcloud compute ssh <your-instance-name> --zone <your-instance-zone>
а затем используйте wget изнутри вашего экземпляра, чтобы загрузить файл:
wget https://www.kaggle.com/c/5174/download/Images_1.zip
wget может отключиться во время загрузки, но вы можете использовать параметры, описанные выше ссылка на сайт которые помогут вам сделать загрузку успешной, например параметры -t и -c для повторных попыток загрузки или продолжения получения частично загруженного файла соответственно.
После загрузки файла вы можете использовать 7ZIP чтобы распаковать файл в каталог, куда он был загружен, с помощью команды: 7z e Images_1.zip
Вы можете скопировать файл в Сегмент GCP используя команду:
gsutil cp Images_1 gs://<your-bucket-name>
Если wget и 7zip не установлены на виртуальной машине, вы можете установить их в соответствии с инструкциями, wget и 7zip, следующим образом. Эти примеры предназначены для виртуальных машин Ubuntu или Debian Linux:
sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full
Просто следуйте инструкциям по установке.