2017-05-18 6 views
0

은 도서관 사서이고 시간이 흐르면 ​​텍스트 파일 묶음 (약 100)이 이고 일반적인 모호한 키워드로 분류되어 있다고 상상해보십시오.텍스트 파일을 두 그룹으로 나누십시오 - 자율 학습

모든 텍스트 파일은 실제로 keyword_meaning1 의 주제이거나 keyword_meaning2의 주제입니다.

어떤 자율 학습 방법을 사용 하시겠습니까? 을 사용하면 텍스트 파일을 두 그룹으로 분리 할 수 ​​있습니까?

텍스트 파일의 수에 따라 정확한 분류 의 정확도 (백분율)를 얻을 수 있습니까?

부정확하게 분류 될 수 있으므로 특정 파일을 검사하는 사서가 필요하다는 것을 어떻게 든 나타낼 수 있습니까?

답변

1

가장 쉬운 시작점은 순진한 베이 즈 분류자를 사용하는 것입니다. 예상 정확도에 대해 추측하기는 어렵습니다. 직접 테스트해야합니다. 전자 메일 스팸 탐지 프로그램을 설치하여 사용해보십시오. 예를 들어, SpamBayes (http://spambayes.sourceforge.net/)는 시작하기 쉽고 쉽게 해킹 할 수 있습니다. SpamBayes는 두 클래스 사이에 명확한 구분이없는 경우 메시지에 "확실하지 않은"레이블을 붙일 수있는 좋은 기능이 있습니다.

편집 : 실제로 감독되지 않은 클러스터링 방법을 원할 때 Carrot2 (http://project.carrot2.org/)와 같은 것이 더 적합합니다.

+0

베이 즈 방법을 감독하지 않습니까? 훈련 단계가 있습니까? 아니면 약간의 수정입니까? – xralf

+0

예, 감독 대상입니다. 문제 성명서에서 클래스 레이블을 사용할 수 있음을 알게되었으므로 순진한 베이 즈 (Bayes)가 가장 직접적인 접근 방식 인 것처럼 보였습니다. – JooMing

+0

감사합니다. carrot2. – xralf