2012-04-23 1 views
1

저는 최종 목표가 짧은 텍스트를 "장소 X를 방문하는 데 관심이있을 수 있습니다": "관심이 없거나 중립적 인"클래스로 분류하는 프로젝트를 시작하려고합니다. 장소는 키워드 집합 (예 : 식사 또는 중국 음식과 같은 마일 유형)에 의해 설명됩니다. 그래서 이상적으로는 짧은 텍스트 분석에 기반한 사용자 욕구에 대한 접근 방식이 필요합니다. 그런 다음 욕망 점수 나 욕구 확률에 따라 분류합니다.이 분야에는 최첨단 기술이 있습니까? 감사합니다.짧은 텍스트 분류

답변

5

이 문제는 텍스트의 정서 분석과 정확히 같습니다. 그러나 전통적인 바이너리 분류 대신에, 당신은 "중립적 인"견해를 가진 것처럼 보입니다. 정서 분석의 최첨단 기술은 도메인에 크게 의존합니다. 영화를 분류하는 데 탁월한 기술은 상용 제품에서 잘 수행되지 않습니다.

또한 기능 선택도 도메인에 따라 크게 달라집니다. 예를 들어 Unigram은 영화 검토 분류에 적합하지만 unigram과 bigram의 조합은 트위터 텍스트를 분류하는 데 더 효과적입니다.

가장 좋은 조언은 다른 기능으로 "놀아 라"는 것입니다. 짧은 텍스트를보고 있기 때문에 트위터는 좋은 동기 부여의 예입니다. 내 기능으로 유니 그램과 바이 그램으로 시작하겠다. 정확한 알고리즘은 그리 중요하지 않습니다. SVM은 일반적으로 올바른 매개 변수 튜닝으로 매우 잘 수행됩니다. 더 큰 데이터 세트를 실험하기 전에 이러한 매개 변수를 튜닝하는 데 소량의 보류 아웃 데이터를 사용하십시오.

이 문제의 더 흥미로운 부분은 순위입니다! A "순도 점수는"최근 다음과 같은 논문에서이 목적을 위해 사용되어왔다 (그리고 나는 그들이 최첨단 꽤있다라고 말하고 싶지만) :

  • 감정 요약을 : 평가 및 사용자 환경 설정을 학습. Lerman, Blair-Goldensohn 및 McDonald. EACL. 2009.
  • 웹 기반 극성 사전의 실행 가능성. Velikovich, Blair-Goldensohn, Hannan 및 McDonald. NAACL. 2010.