텍스트 문서를 묶어서 (약 140 개) 텍스트 분석을 시도하고 있습니다. 사전 처리 및 불필요한 단어 및 불용어 제거 후 각 문서는 약 7000 문장 (nlkt의 sentence tokenizer에 의해 결정됨)을 가지며 각 문장의 평균은 약 17 단어입니다. 내 직업은 해당 문서에서 숨겨진 테마를 찾는 것입니다.LDA에 대한 제안
주제 모델링에 대해 생각해 보았습니다. 그러나 내가 가지고있는 데이터가 LDA를 통해 의미있는 결과를 얻기에 충분한 지 또는 내가 할 수있는 다른 것이 있는지 결정할 수 없습니다.
또한 텍스트를 다른 문서로 나누는 방법은 무엇입니까? 140 개의 문서 (각각 약 7000 x 17 단어)가 충분합니까? 또는 각 문장을 하나의 문서로 간주해야합니까? 그러나 각 문서는 평균 17 단어로 구성됩니다. 트윗과 매우 비슷합니다.
어떤 제안이 도움이 될 것입니다. 미리 감사드립니다.
왜 SVD를하고 t-sne을하고 싶은지 잘 모르시겠습니까? SVD 자체를 사용 하시겠습니까? – user62198
SVD를 사용하면 데이터를 설명하는 n 개의 구성 요소를 선택할 수 있지만 시각화 할 수있는 2 차원 또는 3 차원의 정보 손실 없이는 더 이상 줄일 수 없습니다. –
하루가 끝나면 범주는 다른 버킷에 "표시"되어야합니다. –