그들은 매우 비슷하므로 단일 접근법과 마찬가지로 매개 변수를 조정하여 몇 가지 엄격한 방식으로 결과를 향상 시키십시오. 둘 다 시도해보고 결과를 비교해야합니다.
귀하의 데이터 세트는 좋은 벡터를 유도하는 데 필요한 것보다 약간 작게 보입니다. Doc2Vec의 게시 된 결과는 수천 만에서 수백만 개의 문서에 의존하는 반면, Word2Vec은 수십억 단어의 자료에서 가장 잘 훈련되었습니다.
단어 - 벡터에서 문서 요약 - 일부 벡터를 구성하는 경우 다른 곳에서 재사용되는 단어 벡터를 활용할 수 있지만 벡터의 원래 교육 자료가 어휘가 비슷한 경우 가장 효과적입니다/귀하의 코퍼스에 대한 도메인 언어 사용량. 예를 들어, 공식적인 뉴스 작성에 대해 훈련받은 단어가 비공식 트윗과 동일한 어휘를 사용하거나 잘 작동한다고 기대하지 마십시오.
Doc2Vec 모델을 교육하기 위해 유사한 유사 텍스트 문서 모음이있는 경우 전체 문서 세트에서 좋은 모델을 학습 할 수 있지만 작은 하위 세트를 사용하거나 벡터에 대해 작은 하위 집합을 선택하고 하위 집합에 대해서만 학습 된 모델보다 더 나은 결과를 얻을 수 있습니다.
엄밀히 말하자면 클러스터링과 현재 짧은 텍스트의 작은 코퍼스를 사용하는 경우 다른 곳에서 좋은 단어 벡터가있는 경우 쌍으로 된 문서 간 유사성을 계산하는 "단어 이동 도구 거리"방법을 살펴 보는 것이 좋습니다. . 더 큰 문서와 큰 문서 세트를 계산하는 것은 비용이 많이 들지만 잘 클러스터링을 지원할 수 있습니다.
귀하의 코퍼스는 매우 작습니다 (2000 개의 짧은 텍스트 설명). 사전 훈련 된 모델을 사용하지 않는 한, 문서를 클러스터링하는 데 좋은 오래된 tf-idf + 코사인 거리를 사용하는 것이 좋습니다. 그러한 작은 데이터에서 그러한 모델 중 하나를 다시 훈련하면 좋은 결과를 얻지 못할 것입니다. –