저는 Pyspark를 처음 사용하기 때문에 Spark 2.0.2를 사용하고 있습니다.Pyspark 단일 RDD에서 복수 RDD로 RDD에서 키
나는 RDD는 다음과 같은 구조로 Test_RDD라고 한 예를
를 들어,U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
내가 U-키 열을 볼 수 있습니다 고유 한 값에서 새로운 RDD를 만들 필요가
RDD_1001_01 등 :
U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
RDD_1002_03 다음과 같이 :
U-Key || V1 || V2 || V3 ||
-----------------------------------
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
RDD의 (RDD_1001_01, RDD_1002_03, RDD_1004_01가), 새로운 RDD의 이름이 RDD_ (Test_RDD에서 고유 열 이름)처럼해야
U-Key || V1 || V2 || V3 ||
-----------------------------------
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
1 RDD (Test_RDD)에서 3 :로210
RDD_1004_01. Pyspark에서이 시나리오에 사용할 수있는 기능이 있습니까?