0
독립 실행 형 컴퓨터 (Windows 10이 설치된 PC)에서 Spark 프로그래밍을 위해 스칼라에서 작업 중입니다. 나는 초보자이고 스칼라와 스파크에서 프로그래밍에 대한 경험이 없습니다. 그래서 저는 그 도움에 대해 매우 감사 할 것입니다.Spark 용 스칼라에서 2 개의 HashMap (HashMap <Integer, HashSet <Integer>>) RDD의 교차점
문제점 :
I 값을 가진 정수이다 HashSets 엔트리는 HashMap, hMap1를 가지고 (HashMap에>). 그런 다음 값 (즉, 많은 HashSet 값)을 RDD에 저장합니다. 이제 코드 I, 즉 동일한 종류의 다른 HashMap에, hMap2, 해시 MAP가
val rdd1 = sc.parallelize(Seq(hMap1.values()))
아래와 같이>이다.
입력 :
그 값도 내가 예를 들어 hMap1 및 hMap2의 값을 교차 수있는 방법을 알고 싶어
val rdd2 = sc.parallelize(Seq(hMap2.values()))
같은 RDD에 저장됩니다
의 데이터는 rdd1 = [2, 3], [1, 109], [88, 17]
이고 데이터는 0입니다. 12,358,627,618,185,
출력
때문에 출력 = [2, 3], [1, 109]