2017-02-13 8 views
0

, 유사성 점수를 찾을 수는/하나의 단어의 가장 유사한 단어, 지금은 같은 단어 구문의 유사성 점수를 찾으려면, 그러나word2vec로 두 단어 구문의 유사성 점수를 찾는 방법은 무엇입니까? word2vec와

model.most_similar('man') 
model.similarity('man', 'woman') 

하여 수행 할 수 있습니다

model.most_similar('battery life') 
model.similarity('battery life', 'battery') 
model.similarity('battery life', 'sound quality') 

나는 KeyError를 얻습니다. "단어 '배터리 수명이 어휘가 아닙니다." 그래서 word2vec로 할 수 있습니까?

답변

0

현재 단어 2vec 모델에 어떤 단어가 있는지에 따라 다릅니다. 라이브러리에있는 경우 model.most_similar("battery_life")을 사용하여 라이브러리에 액세스 할 수 있습니다. 라이브러리는 밑줄을 사용하여 n 그램 단위의 단어를 구분하기 때문입니다.

+1

배터리 수명이 이미 내 training corpus에 있습니다. model.most_similar ("battery_life")를 사용하면 여전히 KeyError :(thx는 답을 얻을 수 있습니다. –

0

word2vec은 문구가 아닌 단어에 대한 임베딩을 제공한다는 것을 이해해야합니다. 문구 삽입을 생성하기위한 최첨단 기술에는 여러 가지 방법이 있습니다. 그들 중 일부는 다음과 같습니다이 구문에 묻어을 생성하는 좋은 방법은

.

그러나 단어 삽입에서 구문 포함을 가져오고 싶다면 concatenate/add/average 단어를 구문에 포함시킬 수 있습니다. 예를 들어

은 : 여기

phrase_embedding['battery life'] = word_embedding['battery'] + word_embedding['life'] 

, '+' 두 단어 벡터의 연결을 나타낸다.