2017-11-12 15 views
0

독립 실행 형 컴퓨터 (Windows 10이 설치된 PC)에서 Spark 프로그래밍을 위해 스칼라에서 작업 중입니다. 나는 초보자이고 스칼라와 스파크에서 프로그래밍에 대한 경험이 없습니다. 그래서 저는 그 도움에 대해 매우 감사 할 것입니다.Spark 용 스칼라에서 2 개의 HashMap (HashMap <Integer, HashSet <Integer>>) RDD의 교차점

문제점 :

I 값을 가진 정수이다 HashSets 엔트리는 HashMap, hMap1를 가지고 (HashMap에>). 그런 다음 값 (즉, 많은 HashSet 값)을 RDD에 저장합니다. 이제 코드 I, 즉 동일한 종류의 다른 HashMap에, hMap2, 해시 MAP가

val rdd1 = sc.parallelize(Seq(hMap1.values())) 

아래와 같이>이다.

입력 :

그 값도 내가 예를 들어 hMap1 및 hMap2

의 값을 교차 수있는 방법을 알고 싶어

val rdd2 = sc.parallelize(Seq(hMap2.values())) 

같은 RDD에 저장됩니다

의 데이터는 rdd1 = [2, 3], [1, 109], [88, 17]

이고 데이터는 0입니다. 12,358,627,618,185,

출력

때문에 출력 = [2, 3], [1, 109]

답변