약 150,000 개의 문서에 대한 구조화되지 않은 데이터가 있습니다. 나는 감독되지 않는 학습 알고리즘을 사용하여이 문서들을 그룹화하려고 노력 중이다. 현재 gensim Python에서 LDA (Latent Dirichlet allocation)를 사용하고 있습니다. LDAModel의 경우 num_topics = 20을 전달했습니다. 따라서 내 전체 150k 데이터는 20 개의 주제로 떨어지고 있습니다.LDA - 주제에 키워드 할당
- 어떻게 이러한 주제에 새 문서를 지정해야합니다 :
지금 내가이 그룹을 가지고, 나는이 개 질문이?
내가 복용하고 접근 방식은 다음과 같습니다 주제에 따라 문서의 단어 점수의 합을 계산하고 가장 높은 점수와 함께 주제에 문서를 할당합니다. 그러나 이것은 나에게 좋은 결과를주지 못하고있다.
더 좋은 방법이 있나요?
- 주제를 나타내는 기본 키워드는 어떻게 할당합니까?
위의 코드의 발췌했다. –
나는 num_topics에 대한 매개 변수로 20을주었습니다. 미리 정의 된 질문을 수정했습니다. –