1
"문서"내용이 숫자 식별자 (텍스트 대신) 인 데이터에서 TF-IDF 모델을 실행하고 싶습니다. 따라서 해시 값을 사용하지 않으려면 대신 숫자 값을 사용하십시오. org.apache.spark.mllib.linalg.VectorUDT를 생성하는 간단한 방법? 내 자신의 non hashing HashingTF를 작성해야합니까?
또는 tfidf를 직접 계산하는 것이 더 간단합니까?Spark IDFModel on numbers
** HashingTF ** 대신 ** CountVectorizer **를 사용할 수 있습니다. ** CountVectorizer **는 또한 용어 주파수 벡터를 얻는 데 사용할 수 있습니다. –
괜찮습니다. 감사합니다. 대답으로 쓰고 그에 대한 크레딧을 얻으십시오;) – kecso
도움이 되었어요 :-) –