2017-01-05 17 views
0

나는 짧은 문서 세트를 가지고 있습니다 (각각 1 또는 2 단락). 나는 문서 유사성에 대해 세 가지 접근법을 사용했다 : - tfidf 행렬에 단순 코사인 유사성 - 전체 자료에 LDA를 적용한 다음 LDA 모델을 사용하여 각 문서에 대한 벡터를 만든 다음 코사인 유사성을 적용했다. - 전체 코퍼스에 LSA를 적용한 다음 LSA 모델을 사용하여 각 문서에 대한 벡터를 만든 다음 코사인 유사성을 적용했습니다.문서 유사성을위한 다른 접근법 (LDA, LSA, 코사인)

실험을 토대로 LDA 나 LSA가없는 tfidf 행렬에 대한 간단한 코사인 유사 테스트에서 더 나은 결과를 얻고 있습니다. LDA 나 LSA를 읽은 결과에 따라 결과를 향상시켜야하지만 내 경우에는 그렇지 않습니다! LDA 나 LSA의 결과가 더 나빠진 이유가 있습니까? LDA와 LSA는 1000 회 이상 교육을 받았을 때 확률이 90 % 이상인 일부 문서 사이의 유사성을 전혀 발견하지 못했습니다.

그 이유는 무엇입니까?

감사

답변

0

나는 LDA4j 구현을 사용 TFIDF보다 더 나은 결과를 얻고, 유사 LSI를 위해 내가 semantic-vector 구현을 사용하고있다. 자신 만의 구현이 있다면 모델 스케치를 공유하십시오. 더 나은 결과를 얻으려면 코퍼스를 정규화해야합니다.