2017-12-15 10 views
0

텍스트 문서를 묶어서 (약 140 개) 텍스트 분석을 시도하고 있습니다. 사전 처리 및 불필요한 단어 및 불용어 제거 후 각 문서는 약 7000 문장 (nlkt의 sentence tokenizer에 의해 결정됨)을 가지며 각 문장의 평균은 약 17 단어입니다. 내 직업은 해당 문서에서 숨겨진 테마를 찾는 것입니다.LDA에 대한 제안

주제 모델링에 대해 생각해 보았습니다. 그러나 내가 가지고있는 데이터가 LDA를 통해 의미있는 결과를 얻기에 충분한 지 또는 내가 할 수있는 다른 것이 있는지 결정할 수 없습니다.

또한 텍스트를 다른 문서로 나누는 방법은 무엇입니까? 140 개의 문서 (각각 약 7000 x 17 단어)가 충분합니까? 또는 각 문장을 하나의 문서로 간주해야합니까? 그러나 각 문서는 평균 17 단어로 구성됩니다. 트윗과 매우 비슷합니다.

어떤 제안이 도움이 될 것입니다. 미리 감사드립니다.

답변

0

나는 비슷한 선을 연구했다. 이 방법은 300 개의 문서까지 작동 할 수 있습니다. 그러나이를보다 높은 수준으로 끌어 올리려면 spark를 사용하여 접근 방식을 복제해야합니다.

여기에 : 1) 준비 TF-IDF 행렬 : 용어 벡터 용어로 문서를 표현하십시오. 왜 당신이 먼저 모르는 주제의 번호를 제공해야하기 때문에 LDA하지 마십시오. 의미론보다 더 정교 해지고 싶다면 word2Vec, GloVe, Google News Vectors 등을 시도해보십시오.

2) 위의 TF-IDF에서 잠정적 의미 공간을 준비하십시오. LSA의 생성은 SVD 접근 방식을 사용합니다 (하나는 치수 수를 선택하기위한 카이저 기준을 선택할 수 있음).

2) 이유는 무엇입니까?

a) TF-IDF는 매우 희소하다. 3 단계 (tSne)는 계산 비용이 많이 듭니다. b)이 LSA를 사용하여 의미 론적 검색 엔진을 만들 수 있습니다.

TF-IDF 크기가 매우 작지만 상황이 좋지 않을 때 2) 우회 할 수 있으며 또한 이 문서들에 대한 시맨틱 검색과 같은 다른 필요는 없습니다.

3) tSne (t-stochastic nearest embedding)을 사용하여 3 차원 문서를 나타냅니다. 유클리드 좌표계에서 구형 줄거리를 준비하십시오.

4) K- 평균을 반복적으로 적용하여 최적의 클러스터 수를 찾습니다.

일단 결정되었습니다. 각 카테고리에 대해 단어 구름을 준비하십시오. 당신의 주제가 있으십시오.

+0

왜 SVD를하고 t-sne을하고 싶은지 잘 모르시겠습니까? SVD 자체를 사용 하시겠습니까? – user62198

+0

SVD를 사용하면 데이터를 설명하는 n 개의 구성 요소를 선택할 수 있지만 시각화 할 수있는 2 차원 또는 3 차원의 정보 손실 없이는 더 이상 줄일 수 없습니다. –

+0

하루가 끝나면 범주는 다른 버킷에 "표시"되어야합니다. –