2014-07-14 6 views

답변

2

사용할 수있는 옵션이 많이 있으며,이 응답은 그들이 어떻게 비교되는지에 대해 불가지론 자입니다.

큰 데이터 세트의 중요한 점은 사용 된 근사 사후 추론 방법이며 반드시 소프트웨어 구현이 아니라고 생각합니다. this paper에 따르면 온라인 Variational Bayes 추론은 Gibbs 샘플링보다 시간과 공간면에서 훨씬 효율적입니다. 비록 내가 그것을 사용한 적이 없지만, gensim 패키지가 좋아 보인다. Python으로 작성되었으며 프로젝트의 webpage에 대한 자세한 자습서가 있습니다.

출처에서 직접 오는 코드의 경우 LDA 모델의 저자 인 David Blei의 웹 페이지 here을 참조하십시오. 그는 다양한 언어 (R, Java, C++)로 몇 가지 구현에 연결합니다. 나는 주제 모델링을 지원하는 등 graphlab으로 "빅 데이터"도구를 사용하는 것이 좋습니다

1

GraphLab이 topic model toolkit을 만들기 (파이썬 API 바인딩에) 큰 그 데이터 집합을 처리 할 수 ​​있어야합니다.