2012-12-17 8 views
1

단어 간의 유사성을 계산할 때 LSA가 어떻게 작동 하는지를 이해했습니다. 나는 LSA를 웹 사이트 lsa.colorado.edu에서 사용하고 있지만, 문장이나 여러 단어 사이의 유사점을 계산하는 방법을 소스에서 찾을 수는 없습니다. 그것은 단지 모든 pairwise 유사성을 평균하여 수행됩니까?LSA로 계산 된 문장의 유사도는 어떻게됩니까?

답변

1

단어 벡터를 함께 합산하고 최종 합계를 문장 벡터로 반환하여 단어 벡터를 결합 할 수 있습니다. 이러한 표현은 단어 표현과 동일한 유형이므로, 기존의 방법을 사용하여 쉽게 시맨틱 유사성을 계산할 수 있습니다.

그런 다음 의미 론적 유사성을 계산하려면 해당 벡터 사이의 코사인 값을 사용할 수 있습니다.

저는 현재 S-Space 라이브러리를 사용하고 있으며이 작업을 수행하는 클래스는 DocumentVectorBuilder입니다.

0

두 벡터 간의 코사인 유사성을 계산하기 위해 점 제품을 사용합니다. 따라서, 용어 - 문서 빈도 행렬에서 SVD 행렬을 얻은 다음 두 벡터 사이에 내적 수식을 적용합니다.