2
spark mllib 알고리즘을 작성 중입니다. 이 형식의 데이터 집합은이 형식입니다spark SQL에서 테이블의 증분 열 ID를 추가하는 방법
회사 ":"XXXX ","CurrentTitle ":"XYZ ","Edu_Title ":"ABC ","Exp_mnth ":. (더 많은 값이 있습니다.)
Im은 문자열 값을 숫자 값으로 코드화하려고 했으므로 zipwithuniqueID를 사용하여 각 문자열 값에 대해 고유 한 값을 사용하려고 시도했습니다. 어떤 이유로 인해 수정 된 데이터 집합을 디스크에 저장할 수 없습니다. 스파크 SQL? 또는 무엇을 사용하는 방법이
Sorry..I는 질문을 (삭제하시기 바랍니다 수 스레드 http://stackoverflow.com/questions/33102727/primary-keys-with-apache-spark –
으로 파악 중복이기 때문에)? 감사. –
[Apache Spark의 기본 키] (http://stackoverflow.com/questions/33102727/primary-keys-with-apache-spark)의 가능한 복제본 – Lykathia