2017-12-03 15 views
1

두 bi-gram 사이의 의미 상 유사성을 계산하려고하는데이 작업을 수행하기 위해 fasttext의 사전 훈련 된 단어 벡터를 사용해야합니다. 예를 들어2 개의 n 그램 사이의 의미 상 유사성을 어떻게 계산합니까?

: [his, name][I, am]

그들은 두 튜플이며 I는 모든 필요한 수단에 의해 두 튜플 사이의 유사도를 계산해야

ㄴ 그램 두 요소 파이썬리스트이다.

나는 유사성에 대한 좋은 근사를 줄 수있는 점수가 있기를 바라고 있습니다. 전 - 예를 들어, [His, name][I, am]보다 더 유사하다고 말할 수있는 방법이 있다면 [An, apple]입니다.

지금은 의미 론적 유사성을 포함하는 코사인 유사성 만 사용했습니다.

답변

1

첫 번째 바이 그램에서 두 단어 벡터를 모두 평균하는 경우 코사인 유사성이 유용 할 수 있습니다. 따라서 'his'와 'name'에 대한 벡터를 가져 와서 하나의 벡터로 평균화합니다. 그런 다음 'I'와 'am'에 대한 벡터를 가져 와서 하나의 벡터로 평균화합니다. 마지막으로 결과 벡터에 대한 코사인 유사성을 계산하면 대략적인 의미 유사성을 얻을 수 있습니다.