2016-09-29 3 views
1

"문서"내용이 숫자 식별자 (텍스트 대신) 인 데이터에서 TF-IDF 모델을 실행하고 싶습니다. 따라서 해시 값을 사용하지 않으려면 대신 숫자 값을 사용하십시오. org.apache.spark.mllib.linalg.VectorUDT를 생성하는 간단한 방법? 내 자신의 non hashing HashingTF를 작성해야합니까?
또는 tfidf를 직접 계산하는 것이 더 간단합니까?Spark IDFModel on numbers

+1

** HashingTF ** 대신 ** CountVectorizer **를 사용할 수 있습니다. ** CountVectorizer **는 또한 용어 주파수 벡터를 얻는 데 사용할 수 있습니다. –

+0

괜찮습니다. 감사합니다. 대답으로 쓰고 그에 대한 크레딧을 얻으십시오;) – kecso

+0

도움이 되었어요 :-) –

답변

0

HashingTF 대신 CountVectorizer을 사용할 수 있습니다. CountVectorizer는 용어 주파수 벡터를 가져 오는 데에도 사용할 수 있습니다.

CountVectorizer를 사용하고 CountVectorizer 만 ml의 패키지로 지원되기 때문에 이후 IDF 당신은 대신 RDD의 DataFrame를 사용해야합니다.