gensim doc2vec (~ 500K 벡터 150 차원)를 사용하여 생성 된 문서 벡터 집합이 있습니다. 클러스터링 알고리즘을 실행할 수있는 n * n 유사도 행렬을 생성하려는 비슷한 문서를 클러스터링하고 싶습니다.doc2vec 클러스터링 n * n 문서 간의 유사성
나는이 링크 https://github.com/RaRe-Technologies/gensim/issues/140의 지침을 gensim.similarities를 사용하여 시도했지만 500k 레코드의 출력은 500k * 150 매트릭스였습니다. 나는 출력을 이해하지 못한다. 그것은 500k * 500k가 아니어야합니까? 내가 놓친 게 있니?