2017-11-08 99 views
0

gensim doc2vec (~ 500K 벡터 150 차원)를 사용하여 생성 된 문서 벡터 집합이 있습니다. 클러스터링 알고리즘을 실행할 수있는 n * n 유사도 행렬을 생성하려는 비슷한 문서를 클러스터링하고 싶습니다.doc2vec 클러스터링 n * n 문서 간의 유사성

나는이 링크 https://github.com/RaRe-Technologies/gensim/issues/140의 지침을 gensim.similarities를 사용하여 시도했지만 500k 레코드의 출력은 500k * 150 매트릭스였습니다. 나는 출력을 이해하지 못한다. 그것은 500k * 500k가 아니어야합니까? 내가 놓친 게 있니?

답변

2

당신이보고있는을 포함하는 입니다. 문서 당 150 차원 벡터.

아니요, 수행 할 아니요,은 유사도 매트릭스를 계산하려고합니다.

계산을 수행 했습니까? 500k x 500k x 8 바이트/2 2.이 매트릭스에 충분한 주 메모리 (1TB 이상)가 있습니까? 계산하는데 얼마나 걸리나요? 어떤 클러스터링 알고리즘을 다음에 실행할 것을 의미합니까, 얼마나 오래 걸릴 것입니까 걸릴까요?

먼저 작은 데이터로 시작하고 작동 방식을 찾으십시오. 그런 다음 전체 데이터를 확장하는 데 걸리는 시간을 예측하십시오. 자신이 무엇을하고 있는지 전혀 알지 못한다는 것을 알기 위해 먼저 축척하지 마십시오.