2017-12-30 43 views
0

word2vec 알고리즘을 이해하려고하지만 일부 문제로 인해 혼란 스럽습니다. TensorFlow 코드를 사용하고 있습니다. 문제는 내 데이터 크기가 1 억 8,400 만 단어이고 총 220 만 개의 다른 단어가 포함되어 있다는 것입니다. vocabulary_size250,000으로 설정했습니다. 그것은 내 네트워크가 실제로 가장 빈번한 250,000 단어를 배우는 것을 의미합니까? 나머지 1.950,000 개의 별개의 단어는 UNK입니까?word2vec의 어휘 크기 이해

또 다른 문제는 다음과 같습니다. 이론적으로 모델을 이해합니다. 그러나, 나는 그것을 코드에 연관시키는 데 어려움을 겪고있다. 입력 레이어 크기가 코드의 vocabulary_size에 해당합니까?

나를 계몽하면 정말 감사 할 것입니다.

답변

0

코드에서 build_dataset 함수를 살펴보면 어휘 크기를 초과하는 항목이 unk로 설정되고 입력 레이어가 설정되는 방법을 볼 수 있습니다 (wrod2vec에만 숨겨진 레이어가 없으므로 그것).

+0

그래서 내 진술은 정확합니까? – Kubra