2017-12-27 34 views
0

Google Cloud를 사용 중이며 버킷 (GCS) 중 하나에 하위 폴더가있는 폴더가 있으며 각 하위 폴더에는 약 600MB ~ 1.5GB의 압축 파일이 있습니다. 마다. zip 파일의 개수를 알려야한다면 대략 2000+ zip 파일에 관한 것입니다.Google Cloud Bucket (GCS)에서 직접 파일 압축 풀기

각 zip 파일에는 다양한 크기의 CSV 파일이 있습니다. 각 파일의 압축을 풀고 csv 파일을 읽고 작업을 수행해야합니다. 내 문제는 내가 스스로 양동이에있는 파일의 압축을 풀 수 없다는 것입니다. 지금은 쉘 스크립트를 통해 한 번에 하나의 하위 폴더를 현재 작업 디렉토리에 복사하여 압축을 풀고 GCS의 버킷에 다시 쓰고 오래된 압축 해제 데이터를 삭제하는 등의 작업을합니다. 한 번에 하나의 하위 폴더를 만들고 있는데, 모든 작업을 하나의 복사본으로 복사하려고하면 현재 작업 디렉토리의 공간이 부족합니다. 새로운 데이터를 얻고 새 데이터를 가져올 때 위 작업을 수행해야합니다. 빈번 함 양동이 (GCS) 자체에서 파일의 압축을 해제하는 더 좋은 방법이나 똑똑한 방법이 있습니까?

답변

0

GCS 업로드는 한 번에 하나의 개체 만 생성하므로 파일을 압축 해제 할 수있는 메커니즘이 GCS 서비스에 없습니다.

현재 작업 디렉토리에 어떤 제한이 있는지 잘 모르겠지만 zip 파일을 업로드 한 다음 Google Compute Engine 인스턴스에 첨부 된 영구 디스크로 다운로드하여 거기에 압축을 푸는 방법이 있습니다 gsutil을 사용하여 압축 해제 된 파일을 업로드하십시오. 모든 압축되지 않은 내용을 저장할 수있는 큰 영구 디스크를 생성 할 수 있어야합니다.

+0

트래비스에 대한 정보를 제공해 주셔서 감사합니다. – Irfan