꽤 일반적인 상황인데, 나는 내기를 할 것입니다. 당신은 블로그 나 뉴스 사이트를 가지고 있으며 많은 기사 나 블래 그 또는 무엇이라도 부르며, 맨 아래에 관련이있는 것으로 보이는 다른 것을 제안하고 싶습니다. 각 항목에 대한 메타 데이터는 거의 없다고 가정 해 보겠습니다. 태그, 카테고리가 없습니다. 제목과 저자 이름을 포함하여 하나의 큰 텍스트 묶음으로
나는 스탠포드 POS 태거를 사용하여 POS 태그 문장을 얻습니다. 예 : /DT 아일랜드/NN은/VBD 매우/RB 아름다운/JJ. /. I/PRP 사랑/VBP it/PRP ./. (도 가능한 XML 형식) 사람이 POS 태그 문장에서 기능 선택을 수행하고 기계 학습 방법을 사용하여 텍스트 분류를위한 특징 벡터로 변환하는 방법을 설명 할 수 있습니다.
엄청난 양의 문서 (주로 pdfs 및 doc 's)가 있기 때문에 분류하고 싶기 때문에 특정 태그에 따라 검색 할 수 있습니다. 이 태그들은 내 자신의 것일 수도 있고 (나는 태그를 문서에 넣을 수도있다) 텍스트에서 추출 할 수도있다. 방금이 게시물 (Classify data using Apache Mahout)과 관련이 있지만 어쩌면 더 간단한 것이 있습
텍스트 분류에 대해 배우는 데 관심이 있습니다. 따라서 이론을 읽는 것입니다. 다음 단계는 물건을 만들고 그러므로 나는 다른 도구를 찾고 있습니다. 일부 링크는 WEKA을 가리 킵니다. 그러나 Mallet은이 작업에 더 적합하지만 아무도이 도구에 연결되지 않습니다. "심각한"프로젝트에서 일하기를 원한다면 Mallet을 멀리 할 이유가 있습니까? 필자는 Ma
대학 프로젝트에 약간의 문제가 있습니다. 유전자 알고리즘을 사용하여 문서 분류를 구현해야합니다. this 예를 들어 유전 알고리즘의 원리를 이해하고 있지만 문서 분류에서 어떻게 구현할 수 있는지 잘 모르겠습니다. 피트니스 기능을 알아낼 수 없습니다. 여기 는 지금까지의 생각을 관리 한 것입니다 (그 아마 완전히 잘못 ...) 동의 내가 카테고리를 가지고 각
나는 문서 분류에 관한 프로젝트를 수행하는 데 관심이 있으며,이 기사 또는이 기사와 관련된 텍스트 마이닝의 이론적 인 부분에 유용 할 수있는 도서를 찾고 있습니다. 분류 된 문서 (하위 범주 포함)를 사용하여 학습 데이터에서 문서의 클래스를 예측하는 시스템으로 이동하는 프로세스입니다. 사용할 수있는 (다소 비싼!) 제목이있는 것 같지만, 이것들은 소규모 매