2

spark mllib 알고리즘을 작성 중입니다. 이 형식의 데이터 집합은이 형식입니다spark SQL에서 테이블의 증분 열 ID를 추가하는 방법

회사 ":"XXXX ","CurrentTitle ":"XYZ ","Edu_Title ":"ABC ","Exp_mnth ":. (더 많은 값이 있습니다.)

Im은 문자열 값을 숫자 값으로 코드화하려고 했으므로 zipwithuniqueID를 사용하여 각 문자열 값에 대해 고유 한 값을 사용하려고 시도했습니다. 어떤 이유로 인해 수정 된 데이터 집합을 디스크에 저장할 수 없습니다. 스파크 SQL? 또는 무엇을 사용하는 방법이

+2

Sorry..I는 질문을 (삭제하시기 바랍니다 수 스레드 http://stackoverflow.com/questions/33102727/primary-keys-with-apache-spark –

+0

으로 파악 중복이기 때문에)? 감사. –

+2

[Apache Spark의 기본 키] (http://stackoverflow.com/questions/33102727/primary-keys-with-apache-spark)의 가능한 복제본 – Lykathia

답변

0

스칼라? 이것에 대한 더 나은 방법이 될 것입니다

val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id()) 

자바

import org.apache.spark.sql.functions; 
Daraset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());