나는 사전 정의 된 키워드 목록에서 코퍼스의 유사한 문맥 단어를 식별하기 위해 이력서 (스톱 워드 제거)에 대한 gensim word2vec 코드를 실행 중입니다.왜 Word2Vec의 most_similar() 함수가 훈련에서 무의미한 결과를 내고 있습니까?
입력 매개 변수, 스톱 워드 제거 등 여러 반복에도 불구하고 유사한 문맥 단어가 전혀 의미가 없습니다 (거리 또는 컨텍스트 측면에서) 예 : 55,418 문장 : 상관 관계 매트릭스는 여러 번 아직 2.7 아나콘다 훈련이 다시 시작 시스템 및 코드 gensim 2.3.0의 세부 사항입니다 파이썬에서 실행되는 다음의 상관 관계
의 most_similar 결과에 나던 가을 행렬 같은 창에서 발생 문장 당 평균 단어 : 3-4 단어 (포스트 불용어 제거) 코드 :
나는 이유에 분실하고wordvec_min_count=int()
size = 50
window=10
min_count=5
iter=50
sample=0.001
workers=multiprocessing.cpu_count()
sg=1
bigram = gensim.models.Phrases(sentences, min_count=10, threshold=5.0)
trigram = gensim.models.Phrases(bigram[sentences], min_count=10, threshold=5.0)
model=gensim.models.Word2Vec(sentences = trigram[sentences], size=size, alpha=0.005, window=window, min_count=min_count,max_vocab_size=None,sample=sample, seed=1, workers=workers, min_alpha=0.0001, sg=sg, hs=1, negative=0, cbow_mean=1,iter=iter)
model.wv.most_similar('correlation')
Out[20]:
[(u'rankings', 0.5009744167327881),
(u'salesmen', 0.4948525130748749),
(u'hackathon', 0.47931140661239624),
(u'sachin', 0.46358123421669006),
(u'surveys', 0.4472047984600067),
(u'anova', 0.44710394740104675),
(u'bass', 0.4449636936187744),
(u'goethe', 0.4413239061832428),
(u'sold', 0.43735259771347046),
(u'exceptional', 0.4313117265701294)]
결과는 그렇게 무작위? 어쨌든 word2vec의 정확성을 확인합니까?
또한 most_similar() 함수에 대한 word2vec 대안이 있습니까? 글러브에 대해 읽었지 만 패키지를 설치할 수 없었습니다.
이 점에서 모든 정보는