2016-12-13 6 views
0

나는 geinsim에서 300 치수로 훈련 된 word2vec 모델을 가지고 있으며 치수를 100으로 자르고 싶습니다 (단순히 지난 200 치수를 버리십시오). 파이썬을 사용하는 가장 쉽고 효율적인 방법은 무엇입니까?Gensim Word2Vec 모델 : 절단 치수

답변

1

word2vec format에 출력 모델을 저장할 수 있습니다. 텍스트 파일 (.txt)로 저장하십시오. word2vec 형식은 다음과 같습니다.

첫 줄은 <vocabulary_size> <embedding_size>입니다. 귀하의 경우 <embedding_size>300입니다. 나머지 줄은 <word><TAB><300 floating point numbers space separated>입니다. 이제이 파일을 파이썬으로 쉽게 파싱하고 각 라인에서 마지막 200 개의 부동 소수점을 버릴 수 있습니다. 첫 줄에 <embedding_size>을 업데이트하십시오. 이 파일을 새 파일로 저장하십시오 (선택 사항). 이제 load_word2vec_format()을 사용하여이 새 파일을 새로운 word2vec 모델로로드 할 수 있습니다.

이렇게하면 문제가 해결됩니다.