2017-11-18 17 views
0

GloVe를 처음 사용했습니다. 나는 그들의 웹 사이트에 주어진대로 그들의 demo.sh을 성공적으로 달렸다. 데모를 실행 한 후에 나는 vocab, vectors 등과 같이 몇 개의 파일을 만들었지 만, 우리는 어떤 파일을 사용해야하는지, 그리고 가장 비슷한 단어를 찾는 데 사용하는 방법을 설명하는 문서는 없습니다.GloVe를 사용하여 가장 비슷한 단어를 얻으십시오.

따라서 GloVe에서 가장 유사한 단어를 찾을 수 있도록 도와주십시오 (코사인 유사성 사용)? (Gensim word2vec에서 most.similar처럼)

도와주세요!

답변

1

단어 벡터가 어떻게 생성되는지는 중요하지 않습니다. 단어 사이의 코사인 유사도는 항상 계산할 수 있습니다. 당신이 무엇을 요구 달성하기위한 가장 쉬운 방법은 (당신이 gensim이 고려)된다

python -m gensim.scripts.glove2word2vec –input <GloVe vector file> –output <Word2vec vector file> 

이 변환됩니다 장갑 벡터 파일 형식을 w2v 할 수 있습니다. 수동으로 할 수도 있습니다. GloVe 파일에 파일의 맨 위에있는 전체 벡터 수와 차원을 포함하는 추가 행을 추가하기 만하면됩니다. 방금 gensim로 파일을로드 할 수 있습니다 그 후

180000 300 
<The rest of your file> 

하고 정기적 w2v 모델 인 것처럼 모든 노력하고 있습니다 : 그것은 뭔가에게의 친척을 보인다.

+0

대단히 감사합니다. 나는 demo.sh를 편집하여 텍스트 파일로 사용하려고했습니다. 그러나 '28987 세그먼트 오류 : 11 $ BUILDDIR/glove-save-file $ SAVE_FILE-input-file $ COOCCURRENCE_SHUF_FILE -iter $ MAX_ITER -vector-size $ VECTOR_SIZE -vocab-file $ VOCAB_FILE' 오류가 발생합니다. 왜 이런 일이 일어나는 지 알 겠어? –

+0

또는 내 자신의 GloVe 모델을 구축하는 일관된 방법을 알려주시겠습니까? –