2016-09-30 4 views
1

저는 NLP의 새로운 연구 분야입니다. 논문을 구현하고 싶습니다 Can Artificial Neural Networks Learn Language Models?이 글에서는 뉴럴 네트워크가 언어 모델을 배울 수 있도록 처음으로 한 발을 내디뎠습니다. 나는 종이를 이해했으며, 종이의 마지막 부분에서는 모든 것이 혼란 스럽다는 것을 이해할 수있다.인공 신경망은 언어 모델을 배울 수 있습니까? Paper 2000 구현

해당 코드를 찾을 수 없습니다. 용지가 너무 오래되었습니다. (2000) 그 당시 사용 된 교육 데이터 (Communicator Telephone Air Travel Information System)도 찾지 못했습니다..

저는이 사실을 두 교수 모두에게 이메일로 보냈지 만 그 중 하나의 이메일 ID는 만료되어 다른 사람의 응답을 기다리고 있습니다.

아무도 나를이 상황에서 도와 줄 수 있습니까? 귀하의 지침은 연구 분야의 새로운 사람들에게 가치가있을 것입니다. 나는 너에게 감사 할 것이다.

답변

1

NLP에 따르면 실제로 오래된 문서이지만이 문서는 언어 모델을 배우기 위해 블랙 박스 기술을 사용하는 NLP의 새로운 ERA의 시작처럼 보입니다. 그리고 추가 개발이 WORD EMBEDDING으로 바뀌 었습니다. 나는이 아이디어가 2008 년 Google의 Mikolov (Google의 technic - word2vec)에서 발표 된 것을 기억합니다. 이것은 재귀 신경망을 사용하여 단어가 n 차원의 벡터로 표시되는 방식으로 모델을 학습합니다 (google의 word2vec에서는 n = 128 임). 이 표현은 비슷한 단어가 다른 단어보다 공간에서 서로 가깝기 때문에 매우 좋았다. 또한 산술 연산도 가능합니다. 예를 들어 germany-capital + paris = france. 단어 삽입에 따라 좋은 기사, 설명 및 구현이 tensorflow에 있습니다. https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html 이미 구현 된 일부 데이터 모델과 학습용 데이터가 준비되어 있습니다. 내가 링크를 수정

편집

- 잘못이었다. 또한 C++의 google 코드에 word2vec 구현이 있지만 Google 코드 프로젝트에서 매우 유용한 것은 많은 추가 dat입니다. 여기 링크입니다 :이 https://code.google.com/archive/p/word2vec/ 요 사전 교육을받은 모델 (1.5GB)를 찾을 수는 또한 데이터 훈련 링크 : 학습 데이터

양이 크게 단어 벡터 증가의 품질을 얻기 위해 어디 을 의 훈련 데이터.

  • 최신 (마 마호니의 페이지 하단에서 사전 처리 펄 스크립트를 사용하여) 위키 피 디아에서

    • 우선 억 개 문자 : 연구 목적의 경우, 데이터를 온라인으로 사용할 수있는 세트를 사용하여 고려할 수 있습니다 위키 백과 덤프 깨끗한 텍스트를 얻으려면 위와 같은 스크립트를 사용하십시오. 30 억 단어 이상이어야합니다.
    • WMT11 사이트 : 여러 언어 텍스트 데이터는 "10 억 워드 언어 모델링 벤치 마크"거의 1B 즉, 이미 사전 처리 된 텍스트에서
    • 데이터 집합 (문장 중복 모델을 훈련하기 전에 제거해야합니다).
    • UMBC webbase corpus 3 주위에 억 단어, 자세한 내용은 여기에.추가 처리가 필요합니다 (주로 토큰 화). - 더 많은 언어의 텍스트 데이터는 statmt.org와 Polyglot 프로젝트에서 얻을 수 있습니다.
  • +0

    감사합니다. 이 링크는 MNIST의 데이터 세트를 사용하고 있습니다. 실제 NLP 데이터를 사용하는 몇 가지 예를 공유 할 수 있습니까? 그것은 상대적입니다. –

    +0

    오, 죄송합니다. 잘못된 링크입니다. 나는 그것을 편집했다. 이것은 적절한 것입니다 : https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html – Krzysiek

    +0

    나는 재미있는 것을 발견 할 수있는 몇 가지 유용한 것들을 추가하여 답변을 편집했습니다. – Krzysiek