특정 주제와 관련이 있는지 확인하기 위해 텍스트 (특히 Twitter 메시지)를 분류하고 싶습니다. 그 길로 빠져 들었습니까? 그렇다면 어떤 접근 방식을 사용하고 있는지 듣고 싶습니다.주제가있는 텍스트 감지 중입니까?
필자의 경우 주제 키워드를 검색하면 유용한 텍스트가 약 7 % 정도 나옵니다. 키워드는 여러 의미를 지니 며 그 중 일부는 주제가 아닙니다. 필자의 경우 자동 필터링이 완벽 할 필요는 없습니다. 추출 된 메시지가 주제의 80 %와 관련되어 있다면 행복 할 것입니다. 또한 주제별 메시지의 10-30 %를 잃고 싶습니다.
수동으로 첫 번째 패스를 수행하면 특정 영어 구와 같이 메시지가 잘 될 수있는 몇 가지 특징이 있습니다. 다른 특성은 URL, 다중 해시 태그 및 기타 구문과 같이 거부 가능성이 높습니다. 다른 것들은 평가하기가 더 어렵습니다.
수작업으로 많은 수의 정규 표현식과 관련 가중치를 만들 수 있으며 내가 좋아하는 결과가 나올 때까지 손으로 물건을 조정할 수 있습니다. 그것은 잘 작동 할 수 있습니다. 그러나 나는 다른 가능한 접근법을 몇 가지 이름을 붙일 수 있으며 Stack Overflow 독자들이 행운을 빈다는 것을 궁금해합니다.
감사합니다.
감사합니다. Ryan. 나는 이것들을 살펴볼 것이다. 어느 길로 가든 미리 분류 된 예제가 많은 도움이 될 것 같습니다. 그래서 저는 Mechanical Turk 직업을 처음으로 세울 것입니다. 유망 해 보이는 옵션 1과 관련하여 올바른 방향으로 나를 인도 할 링크 나 googleable 구가 있습니까? "문서 벡터 모델"은 # 2에서 충분히 얻을 수 있지만 # 1에서 더 많은 것을 찾는 데 어려움을 겪고 있습니다. 다시 한번 감사드립니다. –
# 1의 경우 '인접 단어 사용'을 키워드로 사용하여 '단어 감별력'을 문구로 사용할 수 있습니다. 아마 # 1 (어휘 사슬은 편도)보다 그것을하는 더 좋은 방법이 있지만, 그것은 가장 빠른 마음에 왔습니다. 여기를보세요 : http://www.scholarpedia.org/article/Word_sense_disambiguation –