비슷한 문장을 찾기 위해 word2vec/doc2vec를 적용하려고합니다. 먼저 단어 유사성에 대한 word2vec를 고려하십시오. 내가 이해하는 바는 CBOW를 사용하면 컨텍스트에서 가장 적합한 단어를 찾을 수 있지만 Skip-gram은 주어진 단어의 컨텍스트를 찾는 데 사용되므로 두 경우 모두 자주 발생하는 단어를 얻게됩니다. 그러나 유사한 단어를 찾는 것은 어떻게 작동합니까? 나의 직관은 유사한 문맥에서 비슷한 단어가 나오는 경향이 있기 때문에 문맥 유사성은 문맥 적/공동 발생 단어 사이의 유사성으로부터 실제로 측정됩니다. 신경망에서 숨겨진 레이어의 일부 단어에 대한 벡터 표현이 출력 레이어로 전달되면 동시 발생 단어의 가능성을 출력합니다. 따라서 공동 발생 단어는 일부 단어의 벡터에 영향을 미치며 유사한 단어는 유사한 단어 집합을 갖기 때문에 벡터 표현도 유사합니다. 유사성을 찾으려면 각 단어에 대한 숨겨진 계층 가중치 (또는 벡터)를 추출하여 유사성을 측정해야합니다. 나는 그것을 정확하게 이해합니까?단어 유사성을 위해 단어 삽입이 어떻게 작동합니까?
마지막으로, word2vec/doc2vec를 사용하여 트윗 텍스트 (전체 문장) 유사성을 찾는 좋은 방법은 무엇입니까? 나는이 스택 오버플로에 대한 질문이지만, 여기에 응답에서 내 시도를가는 확실하지 않다
[DataScience.SE] (https://datascience.stackexchange.com/) – smci