Q

gensim을 사용하여 unigram + bigram bagofwords에 문서 세트를 토큰 화하는 방법은 무엇입니까?

2014-11-13 4 views 3 likes

3

내가 scikit 내가 사용할 수 배울 사용하여 알고

,gensim을 사용하여 unigram + bigram bagofwords에 문서 세트를 토큰 화하는 방법은 무엇입니까?

vectorizer = TfidfVectorizer(min_df=2,ngram_range=(1, 2),norm='l2') 

corpus = vectorizer.fit_transform(text)

이 코드 조각. 근데 어떻게 할 수 있니?

2014-11-13 Nipun Alahakoon

A

답변

1

난 당신이 유틸

gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15) 
Convert a document into a list of tokens. 

This lowercases, tokenizes, de-accents (optional). – the output are final tokens = unicode strings, that won’t be processed any further.

에서 simple_preprocess을 살펴 수 있다고 생각

2017-02-18 21:47:11