2017-10-26 9 views
0

나는 구글 뉴스부하 사전 교육을받은 단어 묻어

model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 
print (model.wv.vocab) 

에서 사전 교육을받은 단어 묻어을로드 할하지만 오류가 표시되고 :

UnicodeEncodeError: 'ascii' codec can't encode character '\u2022' in position 62425: ordinal not in range(128) 

가 어떻게이 문제를 해결합니까? 나는 embeddings이라는 단어의 모든 단어를 나열하고 문장을 포함하는 평균을 계산하기를 원합니다.

+0

파이썬 2 또는 3을 사용합니까? – MaximTitarenko

+0

파이썬 3을 사용했습니다. –

답변

0

나는 그 (것)들을 동일한 방법으로 적재하고 그 문제가 없다 - 나는 인쇄 계산서다는 것을 의심한다. 아마 당신의 stdout은 jupyter에 있든 터미널에 있든 ascii에 대해서만 설정됩니다. 이 문제를 피하려면 인코딩과 같은 파일을 여는 것이 좋습니다

with open("vocab.txt", "w", encoding="utf8") as vocab_out: 
    for word in model.wv.vocab: 
     vocab_out.write(word + "\n")