0
S3 및 GCS는 HDFS와 반대되는 블록 스토리지가 아니므로 Spark에서 이러한 소스를 읽을 때 파티션을 만드는 방법은 분명하지 않습니다. 현재 GCS에서 읽고 있는데, 작은 파일 (10 바이트)에는 2 개의 파티션을, 중간 크기의 파일에는 100MB를 두 개 만듭니다.버킷에서 읽을 때 스파크 파티션의 수 - S3 - GCS
누구에게 설명이 있습니까?
S3 및 GCS는 HDFS와 반대되는 블록 스토리지가 아니므로 Spark에서 이러한 소스를 읽을 때 파티션을 만드는 방법은 분명하지 않습니다. 현재 GCS에서 읽고 있는데, 작은 파일 (10 바이트)에는 2 개의 파티션을, 중간 크기의 파일에는 100MB를 두 개 만듭니다.버킷에서 읽을 때 스파크 파티션의 수 - S3 - GCS
누구에게 설명이 있습니까?
일반적으로 구성 옵션 인 "파티션 크기에 얼마나 큰 영향을 주는지"입니다.
스파크 측면에서 구성을 의미합니까? split.size 또는 이와 비슷한 항목이 있습니까? – Edge7
예; 저장소 또는 형식의 기본값 또는 기본값입니다. –