-2
모든 RDD에 대해 수행 할 분할 영역을 결정하는 방법은 무엇입니까? RDD 재분할()은 번호를 찾는 방법을 나타냅니다.스파크 모든 RDD에 대해 수행 할 분할 수 결정 방법
모든 RDD에 대해 수행 할 분할 영역을 결정하는 방법은 무엇입니까? RDD 재분할()은 번호를 찾는 방법을 나타냅니다.스파크 모든 RDD에 대해 수행 할 분할 수 결정 방법
규칙을 결정하는 동안 엄지 손가락.
파티션 크기는 2GB 미만이어야합니다 (이 제한은 스파크 코드에서 제공됨).
Spark에서는 파티션 크기 = 맵 분할 크기 = HDFS 기본 블록 크기를 유지하려고합니다. 스파크 NUM 감속기 작업에 MR과 달리 기억하십니까> = NUM 파티션의 수는 불꽃 파티션 < 2000 다른 논리를 적용으로 약 2000 다음 numPartitions> 2000을 높일 경우 매퍼
와> 2000
'[RDD의 파티션 수 및 Spark의 성능] 복제본 (http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) –