2017-01-26 4 views
2

단어 임베딩에서 start_tokens _PAD, _UNKNOWN, _GO, _EOS에 적합한 벡터 표현은 무엇입니까?RNN으로 보내기 전에 토큰 , <unknown>, <go>, <EOS>의 단어 벡터는 무엇이되어야합니까?

+0

매우 모호한 질문입니다. 입력 벡터와 대상 벡터는 모두 텍스트 모음에서 파생됩니다. 그런 다음 RNN은 단어와 텍스트 간의 관계를 나타 내기 위해 * 나타나는 *을 나타내는 숨겨진 레이어에 대한 가중치를 학습합니다. RNN의 입력 벡터는 일반적으로 [TF * IDF] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf)로 단어가 중첩 된 단어 - 문서 동시 발생 행렬이거나 단어 - 단어 동시 발생 행렬 (이웃). – gerowam

+2

Google에서 사전 Word2vec 모델을 가지고 있고 삽입을 다시 훈련시키지 않으려면 벡터가되어야합니다. 그것은 0이나 1의 벡터 또는 다른 것일까? – Cospel

답변

0

나는 이러한 토큰을 어떤 벡터로든 표현할 수 있음을 이해합니다. 왜

은 다음과 같습니다 모델에 일련의 단어를 입력하기

, 당신은 먼저 ID로 각 단어를 변환 한 다음 해당 ID에 해당하는 벡터하여 매립 매트릭스 본다. 벡터를 사용하면 모델을 교육 할 수 있습니다. 그러나 embedding-matrix에는 훈련 중에 조절할 수있는 훈련 가능한 가중치 만 포함됩니다. 미리 짜여진 벡터의 벡터 표현은 좋은 결과를 내기 시작하기에 좋은 포인트입니다.

따라서 특수 토큰이 처음에는 으로 표시되는 것은 중요하지 않습니다.은 훈련 중에 표현이 변경 될 수 있습니다.