2014-02-26 11 views
2

신경망 언어 모델을 만들려고 노력 중이며 Mikolov 외의 word2vec 도구가 이러한 목적을위한 좋은 도구 인 것으로 보입니다. 나는 그것을 시도했지만 단지 단어 표현을 생성합니다. 누구나 그 도구 나 다른 합리적인 학습 프레임 워크로 어떻게 언어 모델을 만들 수 있는지 알고 있습니까?word2vec 도구로 언어 모델을 계산하는 방법은 무엇입니까?

+0

저는 지금 opennlp를 사용합니다. – mvw

+0

이제 Phyrox 덕분에 word2vec로 신경망 언어 모델을 만들 수 없다는 것을 알고 있습니다. 그래서 내가 필요로하는 것은 언어 모델을 구축하는 데 사용하기 쉬운 기능을 갖춘 심층적 인 학습 도구입니다. – Ash

답변

2

Gensim에서 구현 된 Doc2Vec이 작업을 수행합니다. 그 속임수는 문서 ID를 문맥 단어로 사용하며 문서의 모든 단어의 모든 창 크기에 표시됩니다.

코드는 here in Python/Gensim

2

word2vec은 하나의 단어 (단어 그룹)를 숫자 벡터로 나타내는 도구입니다. 따라서 언어 모델과 직접적인 관련이 없습니다.

언어 모델을 생성하려면 MITLM을 사용하면됩니다. 예를 들어, 당신은이 명령으로 코퍼스 Lectures.txt를 사용하여 N-g 모델을 만들 수 있습니다

estimate-ngram -text Lectures.txt -write-lm Lectures.lm 

좋은 튜토리얼 here를 찾을 수 있습니다.

+0

네,하지만 저의 목표는 Neural Network Language Models를 고수하는 것입니다. 신경망 언어 모델은 특히 예술적 방법에 매우 가깝고 프레임 워크를 실행하기 쉽습니다. – Ash

+1

사실, word2vec는 신경 언어 모델을 학습 한 다음 대상 단어의 내부 표현 (삽입) 만 유지하면서 예측 능력을 삭제합니다. – cvangysel

3

Microsoft Research는 word2vec 스타일의 벡터를 사용하여 언어 모델링을위한 도구 키트를 출시했습니다. 당신은 그것을 here 찾을 수 있습니다.