0
word2vec 용 python gensim 패키지를 사용하고 있습니다.python tokenizer word2vec 모델에 2 단어 구문
tokenize 단어와 2 단어 구문에서 모델을 실행하고 싶습니다. 나는 10,000 ~ 문서가 있고 nltk Regextoknizer를 사용하여 모든 문서에서 단일 단어 토큰을 얻습니다. 문서를 어떻게 토큰 화하여 2 단어 구를 얻을 수 있습니까? 예를 들어
:
문서 :
과 2 단어 문구 "나는 녹색 사과해야": {I_have}, {green_apple을}, ... 등