0
나는 다음과 같은 형식의 데이터가 포함 된 데이터 집합이 : 나는 그것을 기반에이 감소 실행하고 싶습니다튜플의 데이터 집합을 절감하는 방법
(티란데를, 1,0,1를) 첫 번째 요소. 둘째, 셋째, 넷째 나는 합치기를 원합니다.
저는 스칼라/스파크에 익숙하지 않고 아마도 나 자신보다 앞설 것 같지만 일부는 인정 될 것입니다.
감사
나는 다음과 같은 형식의 데이터가 포함 된 데이터 집합이 : 나는 그것을 기반에이 감소 실행하고 싶습니다튜플의 데이터 집합을 절감하는 방법
(티란데를, 1,0,1를) 첫 번째 요소. 둘째, 셋째, 넷째 나는 합치기를 원합니다.
저는 스칼라/스파크에 익숙하지 않고 아마도 나 자신보다 앞설 것 같지만 일부는 인정 될 것입니다.
감사
그냥은 Dataset
A를 변환 :
val rdd: RDD[(String, Int, Int, Int)] = ???
val ds: Dataset[(String, Int, Int, Int)] = spark.createDataset(rdd)
및 골재 : 쉽게
ds.groupBy("_1").sum()
오. reduce 및 reduceByKey 메소드를 작동 시키려고 시도했지만 할 수 없었습니다. –