2016-07-21 4 views
0

나는 ~ 5M 스페인어 기사와 함께 GloVe를 훈련 시켰습니다. 이 GloVe를 gensim에로드하고 마치 word2vec 모델 인 것처럼 사용하는 방법을 알고 있습니다. 이제 뉴스 모델에서 주제 모델링 및 키워드 추출 문제 (스페인어로)가 발생했기 때문에 훈련 된 모델을 어떻게 사용할 수 있을지 궁금합니다.숙련 된 GloVe/word2vec 모델을 사용하여 기사에서 키워드를 추출하려면 어떻게해야합니까?

어떻게하면됩니까?

답변

1

word2vec 모델을 사용하는 방법에 대한 질문은 매우 일반적이므로 내 대답도 마찬가지입니다.

word2vec에서 할 수있는 것은 일반적으로 "더 나은"단어 표현을 제공하는 것입니다. 따라서 주제 모델링의 기능으로 "단어 모음"을 사용하는 경우 word2vec의 "단어 모음집"으로 대체하여보다 의미 론적 유사성을 높일 수 있습니다. 아마 더 나은 키워드.

+0

그러나 word2vec로 텍스트를 어떻게 표현해야합니까? word2vec는 텍스트가 아닌 단어를 나타냅니다. 내가 맞습니까? – hipoglucido

+1

그 문제에 달려 있습니다. 텍스트는 모두 (또는 거의) 단어이기 때문에 텍스트의 일부 또는 모든 단어를 선택하여 word2vec 표현을 만들어야합니다. word2vec에서 얻은 벡터의 합계만큼 간단 할 수 있습니다. 코사인 유사성 또는 다른 척도를 사용하여 해당 벡터 (예 :)를 분류 된 주제에서 파생 된 벡터와 비교할 수 있습니다. – ozborn

+0

하지만 그냥 합하면 더 긴 텍스트의 벡터는 비슷한 단어를 사용하고 그 의미가 같더라도 짧은 텍스트의 벡터와 잠재적으로 다른 것입니다. 다른 변형을 사용해야하지 않습니까? 텍스트의 모든 단어에서 평균을 취하는 것은 어떨까요? 고마워. – hipoglucido