2017-03-28 17 views
1

특정 해시 태그가 포함 된 많은 수의 트윗을 비교하여 가장 높은 콘텐츠가있는 트윗을 표시해야합니다. 똑같은 경우, 나는 그들 각각 사이의 pair-wise 코사인 유사성을 찾고 출력과 가장 높은 페어 와이즈 코사인 유사성을 가진 트윗을 표시해야합니다. 나는 벡터 공간 모델, tf-idf 벡터, word2vec/doc2vec 등을 많이 읽었지만 완전히 아무것도 파악할 수 없었다. Java를 사용하여 동일한 구현해야합니다. scikit-learn의 TfidfVectorizer 또는 NLTK의 synsets에 대한 대안이 있습니까?Java를 사용하여 두 텍스트 문서간에 코사인 유사성을 찾는 방법은 무엇입니까?

답변

0

Apache Mahout을 사용하여 폴더에있는 모든 텍스트 문서를 벡터화 할 수 있습니다.

첫 번째 단계는 서열 파일을 생성하고 이들 파일을서열로부터 벡터를를 생성하는 것이다.

page은 어떻게 수행하는지 설명합니다. 그런 다음 RowSimilarityJob 클래스를 사용하여 코사인 유사성을 계산할 수 있습니다.