2017-02-28 5 views
2

word2vec (word embedding) 아키텍처를 이해하려고합니다. 그러나 그것에 대해 질문이 있습니다.단어 임베딩에 대한 질문 (word2vec)

먼저 word2vec 모델이 로그 선형 모델 인 이유는 무엇입니까? 출력 레이어에서 소프트 맥스를 사용하기 때문에?

초, 왜 word2vec가 숨겨진 레이어를 제거하나요? 단지 계산상의 복잡성 때문입니까?

세 번째로, 왜 word2vec이 활성화 기능을 사용하지 않습니까? NNLM (신경망 언어 모델)을 비교하십시오.

답변

2

먼저 word2vec 모델이 로그 선형 모델 인 이유는 무엇입니까? 출력 레이어에서 소프트 맥스를 사용하기 때문에?

정확하게 softmax는 로그 선형 분류 모델입니다. 결과는 사후 확률 분포로 간주되는 출력에서 ​​값을 얻는 것입니다.

초, 왜 word2vec가 숨겨진 레이어를 제거하나요? 그것은 단지 계산 복잡성 때문입니까? 세 번째로, 왜 word2ved가 정품 인증 기능을 사용하지 않습니까? NNLM (신경망 언어 모델)을 비교하십시오.

내 생각에 두 번째 및 세 번째 질문은 여분의 숨겨진 레이어와 활성화 함수가 모델을 필요한 것보다 더 복잡하게 만들 것이라는 점에서 연결되어 있다고 생각합니다. 정품 인증이 명시 적으로 공식화되지는 않지만 선형 분류 기능으로 간주 할 수 있습니다. word2vec 모델이 모델링하려고하는 종속성은 입력 단어 사이의 선형 관계를 통해 달성 될 수 있습니다.

비선형 활성화 함수를 추가하면 신경망이 더 복잡한 함수를 매핑 할 수 있으므로 입력을 단어 2vec가 찾는 종속성을 유지하지 않는 더 복잡한 무언가에 맞출 수 있습니다.

+0

thx : ->! 나는 내가 원하는 당신의 대답을 재치있게 이해한다. –