word2vec 알고리즘을 이해하려고하지만 일부 문제로 인해 혼란 스럽습니다. TensorFlow 코드를 사용하고 있습니다. 문제는 내 데이터 크기가 1 억 8,400 만 단어이고 총 220 만 개의 다른 단어가 포함되어 있다는 것입니다. vocabulary_size
을 250,000
으로 설정했습니다. 그것은 내 네트워크가 실제로 가장 빈번한 250,000 단어를 배우는 것을 의미합니까? 나머지 1.950,000 개의 별개의 단어는 UNK입니까?word2vec의 어휘 크기 이해
또 다른 문제는 다음과 같습니다. 이론적으로 모델을 이해합니다. 그러나, 나는 그것을 코드에 연관시키는 데 어려움을 겪고있다. 입력 레이어 크기가 코드의 vocabulary_size
에 해당합니까?
나를 계몽하면 정말 감사 할 것입니다.
그래서 내 진술은 정확합니까? – Kubra