2016-07-20 11 views
1

Doc2Vec 훈련 모델에 대한 간단한 평가를 위해 400 차원 벡터를 2 차원으로 변환하고 문서를 노드 집합으로 시각화해야합니다. 두 노드 사이의 거리는 유사도에 반비례합니다 (매우 유사한 노드는 서로 가깝습니다).Python - Sklearn MDS 클래스로 2D에서 Doc2Vec 다차원 벡터 시각화

일부 검색을 한 후 MDS (다차원 스케일링) 및 sklearn MDS 라이브러리를 발견했습니다.

이제는 각각 크기가 400 인 차원이 2.2M 인 벡터가 있으며 최저 비용으로 올바른 구문으로 MDS 함수를 어떻게 sklearn 할 수 있는지 알 수 없습니다. 2.2M 벡터 사이의 유사성 행렬을 만드는 것은 불가능하다는 것을 알고 있습니다.

답변

0

비교적 비슷한 작업으로, 비교적 작은 데이터 세트에서도 MacBook Pro로 작업하면서 공간 재구성을 위해 Doc2Vec (기본 100에서 30까지)의 차원을 줄이는 것이 절대적으로 중요하다는 것을 알았습니다.

This은 (tSNE 감소 및 오래된 인터페이스 임에도 불구하고) 좋은 ​​출발점이었습니다.