저는이 RDD의 각 요소가 XML 레코드를 나타내는 JAXB 루트 요소 인 Spark RDD를 작성했습니다.RDD를 6 부분으로 나누는 방법은?
이 RDD를 분할하여이 세트에서 6 개의 RDD를 생성하려고합니다. 기본적으로이 작업은 계층 적 XML 구조를 6 세트의 플랫 CSV 레코드로 간단하게 변환합니다. 나는 현재 6 번 RDD 6 번을이 작업에 사용하고 있습니다.
내 입력 데이터 세트는 3500 만 개입니다. Amazon S3에 저장된 각 448MB의 186 개 파일로 분할됩니다. 내 출력 디렉토리도 S3에 있습니다. EMR 스파크를 사용하고 있습니다.
6 노드 m4.4xlarge 클러스터를 사용하면이 분할을 완료하고 출력을 쓰는 데 38 분이 걸립니다.
RDD를 6 번 걷지 않고도이를 달성 할 수있는 효율적인 방법이 있습니까?
겠습니까 사용자 정의 [파티션 설정 (HTTP로하지'extractTypes' 행위 : //spark.apache. org/docs/latest/api/scala/index.html # org.apache.spark.Partitioner)? –