0
나는 ~ 5M 스페인어 기사와 함께 GloVe를 훈련 시켰습니다. 이 GloVe를 gensim에로드하고 마치 word2vec 모델 인 것처럼 사용하는 방법을 알고 있습니다. 이제 뉴스 모델에서 주제 모델링 및 키워드 추출 문제 (스페인어로)가 발생했기 때문에 훈련 된 모델을 어떻게 사용할 수 있을지 궁금합니다.숙련 된 GloVe/word2vec 모델을 사용하여 기사에서 키워드를 추출하려면 어떻게해야합니까?
어떻게하면됩니까?
그러나 word2vec로 텍스트를 어떻게 표현해야합니까? word2vec는 텍스트가 아닌 단어를 나타냅니다. 내가 맞습니까? – hipoglucido
그 문제에 달려 있습니다. 텍스트는 모두 (또는 거의) 단어이기 때문에 텍스트의 일부 또는 모든 단어를 선택하여 word2vec 표현을 만들어야합니다. word2vec에서 얻은 벡터의 합계만큼 간단 할 수 있습니다. 코사인 유사성 또는 다른 척도를 사용하여 해당 벡터 (예 :)를 분류 된 주제에서 파생 된 벡터와 비교할 수 있습니다. – ozborn
하지만 그냥 합하면 더 긴 텍스트의 벡터는 비슷한 단어를 사용하고 그 의미가 같더라도 짧은 텍스트의 벡터와 잠재적으로 다른 것입니다. 다른 변형을 사용해야하지 않습니까? 텍스트의 모든 단어에서 평균을 취하는 것은 어떨까요? 고마워. – hipoglucido