나는 각 레코드는 int이며 RDD 가지고 : 나는 할 필요가 일괄 적으로이 RDD를 분할스파크. 배치로 분할 RDD
[0,1,2,3,4,5,6,7,8]
합니다. 나는.
사용 ZipWithIndex :
[[0,1,2], [3,4,5], [6,7,8]]
이 그러나, 나는 몇 일 지난 의아해하고 다음과 같은 솔루션을 제외하고 아무것도 찾을 수없는, 사소한 소리 : 각 요소 요소의 고정 된 크기 목록 또 다른 RDD을 지도()를 사용하여이 RDD를 통해
[0,1,2,3,4,5] -> [(0, 0),(1, 1),(2, 2),(3, 3),(4, 4),(5, 5)]
반복 처리를 색인 전압 계산 : RDD에서 레코드를 열거하는 X 생성 인덱스
index = int(index/batchSize)
[1,2,3,4,5,6] -> [(0, 0),(0, 1),(0, 2),(1, 3),(1, 4),(1, 5)]
다음 그룹 등을들 수있다.
[(0, [0,1,2]), (1, [3,4,5])]
a) 여러 개의 필터를 적용 할 수 있습니다. b) 사용자 정의 파티션 도구를 사용하고 각 파티션에서 RDD를 만듭니다. 나는 고정 된 크기의 RDD가 필요한 이유를 상상할 수는 없지만. – khachik
@khachik '다중 필터 적용'및 '맞춤식 파티셔 구현'에 대해 자세히 설명해 주시겠습니까? 고정 크기의 RDD가 필요하지 않습니다. 레코드 배열 (배치)이되도록 RDD의 각 레코드가 필요합니다. 이것은 하나의 레코드가 아니라 레코드의 배치를 소비하고 예측의 일괄 처리를 반환하는 수학 모델을 가지고 있기 때문에 필요합니다. – Dmitry