2009-07-20 3 views
0

특정 주제와 관련이 있는지 확인하기 위해 텍스트 (특히 Twitter 메시지)를 분류하고 싶습니다. 그 길로 빠져 들었습니까? 그렇다면 어떤 접근 방식을 사용하고 있는지 듣고 싶습니다.주제가있는 텍스트 감지 중입니까?

필자의 경우 주제 키워드를 검색하면 유용한 텍스트가 약 7 % 정도 나옵니다. 키워드는 여러 의미를 지니 며 그 중 일부는 주제가 아닙니다. 필자의 경우 자동 필터링이 완벽 할 필요는 없습니다. 추출 된 메시지가 주제의 80 %와 관련되어 있다면 행복 할 것입니다. 또한 주제별 메시지의 10-30 %를 잃고 싶습니다.

수동으로 첫 번째 패스를 수행하면 특정 영어 구와 같이 메시지가 잘 될 수있는 몇 가지 특징이 있습니다. 다른 특성은 URL, 다중 해시 태그 및 기타 구문과 같이 거부 가능성이 높습니다. 다른 것들은 평가하기가 더 어렵습니다.

수작업으로 많은 수의 정규 표현식과 관련 가중치를 만들 수 있으며 내가 좋아하는 결과가 나올 때까지 손으로 물건을 조정할 수 있습니다. 그것은 잘 작동 할 수 있습니다. 그러나 나는 다른 가능한 접근법을 몇 가지 이름을 붙일 수 있으며 Stack Overflow 독자들이 행운을 빈다는 것을 궁금해합니다.

감사합니다.

답변

1

이것은 전체 필드입니다. 나는 자연 언어 처리 문헌에서 약간의 연구를하는 것을 추천한다.

임시 방편이 있지만 이러한 방법은 오류가 자주 발생하기 쉽습니다. 많은 거짓 긍정과 거짓 부정입니다. 그것은 좋은 시작일지도 모른다. 당신이 키워드를 사용하는 경우

  1. , 당신은 (그것을 여러 의미가있는 경우) 해당 키워드 주위에 단어를 사용하여 키워드의 의미를 명확하게 시도 할 수 있습니다. 그러나이를 수행하기 위해서는 처리 된 자료 (문서 묶음)가 가장 빈번하게 함께 나타나는 단어를 결정할 수 있어야하며 동일한 것을 의미 할 수도 있습니다.

  2. 분석하려는 텍스트와 유사한 것으로 알려진 문서 사이의 거리를 측정 할 수 있습니다. 두 텍스트 소스의 단어 수를 사용하고 용어/문서 벡터를 비교해야합니다. 보다 철저한 치료를 위해 "문서 벡터 모델"을 찾으십시오.

이 작업은 좋은 프로젝트이지만 간단하지는 않습니다.

+0

감사합니다. Ryan. 나는 이것들을 살펴볼 것이다. 어느 길로 가든 미리 분류 된 예제가 많은 도움이 될 것 같습니다. 그래서 저는 Mechanical Turk 직업을 처음으로 세울 것입니다. 유망 해 보이는 옵션 1과 관련하여 올바른 방향으로 나를 인도 할 링크 나 googleable 구가 있습니까? "문서 벡터 모델"은 # 2에서 충분히 얻을 수 있지만 # 1에서 더 많은 것을 찾는 데 어려움을 겪고 있습니다. 다시 한번 감사드립니다. –

+0

# 1의 경우 '인접 단어 사용'을 키워드로 사용하여 '단어 감별력'을 문구로 사용할 수 있습니다. 아마 # 1 (어휘 사슬은 편도)보다 그것을하는 더 좋은 방법이 있지만, 그것은 가장 빠른 마음에 왔습니다. 여기를보세요 : http://www.scholarpedia.org/article/Word_sense_disambiguation –