2017-03-08 18 views
0

우르두어, 타밀어 등 영어 알파벳을 기반으로하지 않는 언어로 Word2Vec 모델을 구현할 수 있습니까? 그렇다면 누군가가 나에게 통로를 제안 할 수 있습니다.비영어권 언어로 된 Word2Vec 구현?

+0

및 사전 (단어, ID)를 생성, numberized 형식으로 변환합니다. 그런 다음 번호 매김 된 파일을 word2vec에 전달하십시오. 너는 갈 준비가되어있을 것이다. 검색어 시간에 입력을 받아 사전을 사용하고 훈련 된 모델에 전달하기 전에 숫자로 된 버전으로 변환하십시오! – user3639557

답변

0

그래야, 언어에 대한 토크 나이저 (예 : 단어 분리기)가 있어야하고, 작은 데이터가 있고 변형 된 단어 양식을 기본 양식 표현으로 대체하려는 경우에는 기각제 또는 형태소 분석기가있을 수 있다고 생각합니다. .

여기 파이썬에서 gensim와 모델을 훈련을위한 기본 예제 : 단지 데이터 전처리

from gensim import models 

training_corpus = "corpus.txt" 

with open(training_corpus,'r') as f: 
    plain_text = f.read() 

sentences = plain_text.split("\n") # Assume one sentence per line 
tokenized = [] 

for sentence in sentences: 
    # White-space-based word splitting, replace with a better tokenizer 
    tokens = sentence.strip().lower().split(" ") 
    tokenized.append(tokens) 

# Train your model, see gensim documentation for parameters 
model = models.Word2Vec(tokenized, min_count=3, size=50) 
+0

시도해보십시오. – Djokester