2017-11-02 14 views
0

그래서 2000 개의 보고서가 있으며 각 보고서에는 문제에 대한 간단한 설명이 있습니다. 내 목표는 이러한 모든 것을 클러스터링하여 이러한 보고서에서 뚜렷한 추세를 찾을 수있게하는 것입니다.보고서의 짧은 설명을 클러스터링하려고합니다. Word2Vec 또는 Doc2Vec를 사용해야합니까?

나는 일종의 문맥 텍스트 벡터를 사용하고 싶습니다. 자, Word2Vec을 사용하고 이것이 좋은 옵션이 될 것이라고 생각하지만, 역시 Doc2Vec과 나는이 유스 케이스에 대해 더 나은 옵션이 무엇인지 확신 할 수 없다.

모든 의견을 크게 환영합니다.

+1

귀하의 코퍼스는 매우 작습니다 (2000 개의 짧은 텍스트 설명). 사전 훈련 된 모델을 사용하지 않는 한, 문서를 클러스터링하는 데 좋은 오래된 tf-idf + 코사인 거리를 사용하는 것이 좋습니다. 그러한 작은 데이터에서 그러한 모델 중 하나를 다시 훈련하면 좋은 결과를 얻지 못할 것입니다. –

답변

0

그들은 매우 비슷하므로 단일 접근법과 마찬가지로 매개 변수를 조정하여 몇 가지 엄격한 방식으로 결과를 향상 시키십시오. 둘 다 시도해보고 결과를 비교해야합니다.

귀하의 데이터 세트는 좋은 벡터를 유도하는 데 필요한 것보다 약간 작게 보입니다. Doc2Vec의 게시 된 결과는 수천 만에서 수백만 개의 문서에 의존하는 반면, Word2Vec은 수십억 단어의 자료에서 가장 잘 훈련되었습니다.

단어 - 벡터에서 문서 요약 - 일부 벡터를 구성하는 경우 다른 곳에서 재사용되는 단어 벡터를 활용할 수 있지만 벡터의 원래 교육 자료가 어휘가 비슷한 경우 가장 효과적입니다/귀하의 코퍼스에 대한 도메인 언어 사용량. 예를 들어, 공식적인 뉴스 작성에 대해 훈련받은 단어가 비공식 트윗과 동일한 어휘를 사용하거나 잘 작동한다고 기대하지 마십시오.

Doc2Vec 모델을 교육하기 위해 유사한 유사 텍스트 문서 모음이있는 경우 전체 문서 세트에서 좋은 모델을 학습 할 수 있지만 작은 하위 세트를 사용하거나 벡터에 대해 작은 하위 집합을 선택하고 하위 집합에 대해서만 학습 된 모델보다 더 나은 결과를 얻을 수 있습니다.

엄밀히 말하자면 클러스터링과 현재 짧은 텍스트의 작은 코퍼스를 사용하는 경우 다른 곳에서 좋은 단어 벡터가있는 경우 쌍으로 된 문서 간 유사성을 계산하는 "단어 이동 도구 거리"방법을 살펴 보는 것이 좋습니다. . 더 큰 문서와 큰 문서 세트를 계산하는 것은 비용이 많이 들지만 잘 클러스터링을 지원할 수 있습니다.