Назад | Перейти на главную страницу

Распаковка zip-файла прямо в Google Cloud Bucket (GCS)

Я использую Google Cloud, и в одной из корзин (GCS) у меня есть папка с подпапками, и каждая подпапка содержит zip-файлы размером примерно от 600 МБ до 1,5 ГБ каждый. Если мне нужно указать количество zip-файлов, я бы сказал, что их около 2000+ zip-файлов.

В каждом zip-файле есть файлы CSV разного размера. Мне нужно разархивировать каждый файл, а затем прочитать файл csv и выполнить с ними операции. Моя проблема в том, что я не могу самостоятельно распаковать файлы в ведре. Прямо сейчас с помощью сценария оболочки я копирую по одной подпапке в свой текущий рабочий каталог, распаковываю ее, а затем записываю обратно в корзину в GCS, удаляя старые распакованные данные и так далее. Я делаю одну подпапку за раз, потому что, если я попытаюсь скопировать все за один раз, в моем текущем рабочем каталоге закончится место, мне нужно будет выполнить указанное выше действие, когда я получу новые данные, и получение новых данных будет частым Есть ли лучший или более разумный способ распаковать файлы в самом Bucket (GCS).

cloud-storage