2017-03-11 6 views
-2

모든 RDD에 대해 수행 할 분할 영역을 결정하는 방법은 무엇입니까? RDD 재분할()은 번호를 찾는 방법을 나타냅니다.스파크 모든 RDD에 대해 수행 할 분할 수 결정 방법

+1

'[RDD의 파티션 수 및 Spark의 성능] 복제본 (http://stackoverflow.com/questions/35800795/number-of-partitions-in-rdd-and-performance-in-spark) –

답변

1

규칙을 결정하는 동안 엄지 손가락.

  1. 파티션 크기는 2GB 미만이어야합니다 (이 제한은 스파크 코드에서 제공됨).

  2. Spark에서는 파티션 크기 = 맵 분할 크기 = HDFS 기본 블록 크기를 유지하려고합니다. 스파크 NUM 감속기 작업에 MR과 달리 기억하십니까> = NUM ​​파티션의 수는 불꽃 파티션 < 2000 다른 논리를 적용으로 약 2000 다음 numPartitions> 2000을 높일 경우 매퍼

  3. 와> 2000