2017-09-19 12 views
0

word2vec 용 python gensim 패키지를 사용하고 있습니다.python tokenizer word2vec 모델에 2 단어 구문

tokenize 단어와 2 단어 구문에서 모델을 실행하고 싶습니다. 나는 10,000 ~ 문서가 있고 nltk Regextoknizer를 사용하여 모든 문서에서 단일 단어 토큰을 얻습니다. 문서를 어떻게 토큰 화하여 2 단어 구를 얻을 수 있습니까? 예를 들어

:

문서 :

과 2 단어 문구 "나는 녹색 사과해야": {I_have}, {green_apple을}, ... 등

답변

1

하나의 옵션입니다 nltk에서 ngrams을 사용하고 튜플 목록을 얻으려면 다음과 같이 n = 2로 설정하십시오.

from nltk import ngrams 
n = 2 
bigram_list = list(ngrams(document.split(), n))