현재 Im은 의미 (의미)에 따라 두 개의 텍스트를 비교하는 프로그램을 개발하고 있습니다. 문자열 거리를 비교하는 유용한 방법을 제공하는 lingpipe와 같은 라이브러리가 있지만 텍스트 유사성을 측정하는 가장 좋은 방법은 LSA라고 들었습니다.잠재 의미 분석을 사용하여 통과 유사성 측정
텍스트 유사성을 측정하기 위해 LSA를 사용하는 것과 혼란이 있습니다. 나는
1.Two passages are represented as two matrices X and Y.
2.Using SVD, the matrices each are reduced to 3 different matrices
3.And then the cosine distance is measured between the two matrices
4. The cosine distance determines how similar they are
난 그냥 알고 싶어 ... SVD에
A.이 매트릭스는 3 작은 행렬로 감소, LSA와 함께, 과정임을 이해합니다. 따라서이 작은 매트릭스 중 코사인 거리 측정에 사용되는 것은 어느 것입니까?
B. 일반적으로 코사인 거리가 벡터에 적용됩니다. 그래서 그것들을 행렬에 적용하는 경우, 행렬을 반복하고 cosine distance를 매 벡터마다 측정한다고 가정합니다. 그리고이 모든 거리의 평균은이 두 행렬 사이의 최종 코사인 거리로 가정됩니까?
나는 이것이 매우 틈새 주제이지만,이 2 가지 질문에 대한 약간의 조명을 희망한다고 생각한다. 감사합니다
그런 경우 왜 원래 "유형 x 문서"매트릭스 사이에서 코사인 유사를하지 않습니까? 코퍼스 크기가 작 으면 SVD는 측정 정확도를 떨어 뜨릴 수 있습니까? – kype
아니요. 형식 x 문서 행렬을 다시 생성 할 때 대량의 정보를 재배포하여 공통 단어가없는 문서가 유사한 코사인 유사성을 나타 내기 때문에 ... – Pierre
전통적인 벡터 공간 모델 인 'type x document 매트릭스가 희박하다. 치수 감소를 적용한 후 행렬은 밀도가 높습니다. – Pierre