gensim word2vec를 사용하여 Named-Entity-recognition 문제에서 단어를 벡터로 표현하기 위해 여러 소송 파일이있는 CBOW 모델을 만들었지 만 평가 방법을 알고 싶습니다. 내 말의 표현. wordsim353 (NLTK) 또는 Google의 다른 온라인 데이터 세트와 같은 다른 데이터 세트를 사용하는 경우 파일의 내 도메인 데이터 세트와 관련된 모델을 작성했기 때문에 작동하지 않습니다. word2vec의 단어 벡터 표현을 평가하려면 어떻게해야합니까? 유사한 문맥에 속한 단어를 벡터 공간에서 더 가깝게 배치하고 싶습니다. 어떻게하면 빌드 모델이이를 수행하는지 확인할 수 있습니까?특정 컨텍스트 파일에서 word2vec 빌드를 평가하는 방법
에 대해 홀수 중 하나라는 기술을 사용하여 시작했습니다. 예를 들면 :
model.wv.doesnt_match("breakfast cereal dinner lunch".split()) --> 'cereal'
나는 context.But에게 밖으로의 정확성을 유사한 상황과 이상한 단어의 세 단어를 복용 평가 word2vec .Started의 훈련에있는 단어를 사용하여 (검증에 대한) 내 자신의 데이터 집합을 생성 내 모델은 30 %에 불과합니다. 위의 방법은 실제로 내 w2v 모델을 평가하는 데 도움이됩니까? 아니면 더 좋은 방법이 있습니까?
word_similarity 측정 값을 사용하고 싶지만 내 모델을 평가하기 위해 참조 점수 (Human assessed)가 필요하거나이를 수행 할 수있는 기술이 있습니까? 제발, 아이디어 나 기술을 제안 해주세요.