텍스트 전처리 : 그것은 기본 단어의에 변환, unigrams으로 토큰 화, 소문자 모든 중지 단어를 제거하는 모든 텍스트는 사용 형태소 분석기는 토큰을 정상화합니다.
내가 말한 자유 텍스트 인 문서를 분류하기 위해 생각할 수있는 두 가지 접근 방법이 있습니다. 각 자유 텍스트는 다음과 같은 문서입니다.
1) 감독 분류 시간을 갖고 임의로 문서 샘플을 선택하고 카테고리를 지정하십시오. 카테고리 당 여러 개의 문서가 있고 예측할 모든 카테고리가 포함될 때까지이 작업을 수행하십시오.
다음으로이 텍스트에서 Tf-Idf 행렬을 만듭니다. 상위 K 개의 기능을 선택하십시오 (최상의 결과를 얻으려면 K 값 조정). 또는 SVD를 사용하여 상호 연관된 기능을 하나로 결합하여 기능 수를 줄일 수 있습니다. 고객 서비스 관리자의 부서와 같은 다른 기능을 비롯하여 다른 많은 기능을 예측 요소로 사용할 수 있다는 점을 명심하십시오. 이제 기계 학습 모델을 훈련시키고 테스트 해보십시오.
2) 자율 학습 : 출력 변수에 몇 개의 카테고리가 있는지 알고 있으면 만들려는 클러스터 수로 그 수를 사용할 수 있습니다. 위에서 기술 한 Tf-Idf 벡터를 사용하여 k 개의 클러스터를 생성합니다. 각 클러스터에서 무작위로 몇 개의 문서를 선택하고 문서가 속한 범주를 결정하십시오. 5 개의 문서를 선택하고 해당 문서가 "환불 받기"카테고리에 속한 것으로 나타났습니다.이 클러스터의 모든 문서에 "원할 경우 환불"이라고 표기하십시오. 나머지 모든 클러스터에 대해이 작업을 수행하십시오.
자율 학습의 이점은 사전 분류 및 데이터 준비의 고통을 덜어 주지만 감독되지 않은 학습에주의해야한다는 것입니다. 정확도는 감독 학습만큼 좋지 않을 수 있습니다.
설명 된 2 가지 방법은 수행 할 수있는 작업에 대한 추상 개요입니다. 이제 아이디어를 얻었으므로 주제를 자세히 읽고 rapidminer와 같은 도구를 사용하여 작업을 훨씬 빨리 완료하십시오.
와우. 그게 ... 강력합니다. 정말 고맙습니다. 누구든지 R에서 구현 된 것을 보길 원한다면 여기를 참고하십시오 : http : //stackoverflow.com/questions/14875493/lda-with-topicmodels-how-can-i-see-which-topics-different-documents-belong-to – meb33