2017-12-27 18 views
0

나는 다음과 같은 형식의 데이터가 포함 된 데이터 집합이 : 나는 그것을 기반에이 감소 실행하고 싶습니다튜플의 데이터 집합을 절감하는 방법

(티란데를, 1,0,1를) 첫 번째 요소. 둘째, 셋째, 넷째 나는 합치기를 원합니다.

저는 스칼라/스파크에 익숙하지 않고 아마도 나 자신보다 앞설 것 같지만 일부는 인정 될 것입니다.

감사

답변

1

그냥은 Dataset A를 변환 :

val rdd: RDD[(String, Int, Int, Int)] = ??? 
val ds: Dataset[(String, Int, Int, Int)] = spark.createDataset(rdd) 

및 골재 : 쉽게

ds.groupBy("_1").sum() 
+0

오. reduce 및 reduceByKey 메소드를 작동 시키려고 시도했지만 할 수 없었습니다. –