0

매우 큰 데이터 세트, 약 50,000 개의 문서 및 300,000 개의 단어/용어에서 LSA 또는 주성분 분석을 실행하여 문서를 그래프화할 수 있도록 차원을 줄입니다. 2-d.매우 큰 데이터 세트에서 잠재 의미 분석 수행 방법

파이썬과 MATLAB에서 시도했지만 시스템에 메모리가 부족하여 데이터 세트의 볼륨으로 인해 인스턴스가 충돌합니다. 누구든지 부하를 줄이거 나 더 빠르고 효율적으로 실행할 수있는 근사 LSA/PCA를 수행하는 방법을 알고 있습니까? 내 전반적인 목표는 300k 단어에 비해 큰 차원 감소입니다.

답변

0

Oja's rule을 살펴볼 수 있습니다. 그것은 PCA를 배우는 반복적 인 절차를 정의합니다. 이제 메모리 오버로드를 방지하기 위해 디스크에서 전체 데이터 세트를 한 번에로드하지 않도록 구현해야합니다.