2017-10-23 19 views
-1

크기가 500000 인 어휘를 가지고 있는데, 100-300 사이의 차원 크기를 선택하면이 거대한 드문 드문 한 행렬이 어떻게 100x100 밀도로 변환됩니까? 매트릭스. 기사를 많이 읽었지만 숫자 값이 100 X 100 매트릭스로 어떻게 전달되는지 이해할 수 없었습니다.Word2Vec : 값이 낮은 차원으로 매핑되는 방식

나는 CBOW에 대해 읽고 어떻게 작동하는지 이해하는 이론적 그램을 생략하고,하지만 각 단어에 대해이 작업을 계산하는 경우는 여전히 100 X 100 크기로 변환되는 방법 500000 X 500000 차원 매트릭스 것 한

답변

1

더 높은 차원의 표현에서 '변환 된'것으로 생각할 필요는 없습니다. 모든 단어에는 목표 차원의 초기 무작위 (그러나 크기는 작음) 벡터가 주어집니다. 그래서, 100 차원을 말하십시오.

그런 다음 100 차원 벡터가 사용됩니다 (스킵 그램에서 단독으로 또는 CBOW에서 평균 그룹으로). 얕은 신경망을 통해 근처의 단어를 예측합니다. 그리고 벡터가 무작위로 시작했기 때문에 무서웠습니다. 그걸로. 그러나 음의 샘플링 또는 계층 적 softmax로 평가 한 예측 오류의 역 전파는 신경망 숨겨진 계층 가중치를 입력 후 입력 벡터 가중치를 조금씩 내림으로써 예측에서 다시 약간 더 좋아집니다.

결국, 현재 훈련 데이터로 예상 할 수있는만큼 예상 할 수있는 노력 (사이클) 내에서 예측할 수 있습니다.

그 시점에서, 그들은 여전히 ​​100 차원 벡터입니다. 그들은 결코 더 이상 존재하지 않지만 word2vec에서 기대되는 다른 유리한 특성을 가진 상대적인 배열로 옮겨졌습니다.