버킷에서 읽을 때 스파크 파티션의 수 - S3 - GCS

apache-spark
amazon-s3
google-cloud-storage
partitioning

2017-12-11 24 views 0 likes

S3 및 GCS는 HDFS와 반대되는 블록 스토리지가 아니므로 Spark에서 이러한 소스를 읽을 때 파티션을 만드는 방법은 분명하지 않습니다. 현재 GCS에서 읽고 있는데, 작은 파일 (10 바이트)에는 2 개의 파티션을, 중간 크기의 파일에는 100MB를 두 개 만듭니다.버킷에서 읽을 때 스파크 파티션의 수 - S3 - GCS

누구에게 설명이 있습니까?

출처

2017-12-11 Edge7

답변

일반적으로 구성 옵션 인 "파티션 크기에 얼마나 큰 영향을 주는지"입니다.

출처

2017-12-12 12:16:49

스파크 측면에서 구성을 의미합니까? split.size 또는 이와 비슷한 항목이 있습니까? – Edge7

예; 저장소 또는 형식의 기본값 또는 기본값입니다. –

버킷에서 읽을 때 스파크 파티션의 수 - S3 - GCS

답변

관련 문제