2017-01-31 4 views
0

나는 gensim w2v 모델을 훈련 한 텍스트 데이터 세트가 있습니다. 이제는 벡터를 사용하여 데이터 세트의 단어 및 문서에 대한 tf-idf 값을 사용하고 싶습니다. 그것을하는 올바른 방법은 무엇입니까? gensim 사이트에서 tutorial을 팔로우하려고했습니다.gensim에서 w2v의 tf-id를 얻는 방법

나는 models.tfidfmodel(model.wv[model.wv.index2word]) 같은 것을 하지만이

File "<ipython-input-229-7946418f8a82>", line 1, in <module> models.tfidfmodel(model.wv[model.wv.index2word]) TypeError: 'module' object is not callable

내가부터하게 원하는 것을 때문에 실패 기대? BOW가 그렇게 할 수있는 유일한 방법입니까?

답변

3

모델에 연결된 튜토리얼에는 전체 텍스트 (또는 변형 된 텍스트)와 같은 코퍼스가 제공됩니다.

가지고 계신가 을 시도하면 w2v 모델에서 배운 사전을 모델로 제공합니다.

당신이 원하는 것은

내 데이터 세트를 단어와 문서의 TF-IDF 값을 받아 봐하는 경우.

그럼 당신은 단순히로 전달한다 : 당신이 실제로 원하는 무엇 변형 신체에 TF-IDF 모델을 실행하는 경우

tfidf = models.TfidfModel(corpus) 

, 당신은 첫째로 w2v를 사용한다 코퍼스를 변환 한 다음 변환 된 코퍼스를 tfidfmodel으로 전달하십시오. TFIDF 모델은 단순히 단어 빈도를 계산으로 원래 하나 그것을 변환 코퍼스를 제공하고하지 않음으로써 얻을 수 아무것도가 없다는


참고.