2008-09-23 6 views
13

"긍정적"대 "부정적인"산업별 문장 (즉, 영화 리뷰)을 분석하는 최선의 방법을 결정하는 데 도움이 필요합니다. 전에 OpenNLP와 같은 라이브러리를 보았습니다.하지만 너무 저급입니다. 기본적인 문장 구성 만 제공합니다. 내가 필요로하는 것은 상위 레벨의 구조입니다 : - 잘하면 단어 목록으로 - 내 데이터 집합에 희망적으로 훈련 가능합니다NLP : 양적 "긍정적"대 "부정적인"문장

고마워요!

답변

23

찾고있는 내용은 일반적으로 Sentiment Analysis으로 불립니다. 일반적으로 정서 분석은 풍자 또는 아이러니 같은 섬세한 미묘함을 처리 할 수 ​​없지만 많은 양의 데이터를 던지면 꽤 잘 처리됩니다.

감정 분석에는 대개 상당한 양의 사전 처리가 필요합니다. 적어도 토큰 화, 문장 경계 검출 및 품사 태그 붙이기. 때로는 구문 구문 분석이 중요 할 수 있습니다. 제대로 수행하는 것은 전산 언어학 분야의 전 분야에 걸쳐 이루어 지므로, 먼저 분야를 공부하는 데 시간을 투자하지 않는 한 자신의 해결책을 제시하는 것이 좋습니다.

OpenNLP에는 정서 분석을 돕는 도구가 있지만 더 심각한 것을 원한다면 LingPipe 툴킷을 살펴 봐야합니다. 내장 된 SA 기능과 멋진 tutorial이 있습니다. 그리고 당신은 당신의 자신의 데이터 세트로 그것을 훈련시킬 수 있지만, 그것은 아주 사소한 것이라고 생각하지 않습니다 :-).

인터넷 검색은 아마도 함께 할 수있는 리소스를 제공 할 것입니다. 더 구체적인 질문이 있으면 nlp 태그를 자세히보고 있습니다 .-

+0

놀랍도록 유용합니다. 감사합니다. Aleksandar! –

6

다른 방법으로는 다른 텍스트 분류 작업에서 널리 사용되는 전략을 사용합니다. 가장 일반적인 방법은 영화 리뷰를 단어 벡터로 변환하고이를 학습 데이터로 분류 알고리즘에 넣는 것입니다. 가장 널리 사용되는 데이터 마이닝 패키지가 여기 있습니다. 오픈 소스 RapidMiner toolkit을 사용하여 실험하는 방법을 보여주는 tutorial on sentiment classification을 살펴볼 수 있습니다.

덧붙여서, 영화 리뷰에 대한 의견을 조사하는 것과 관련하여 연구 목적으로 제공되는 good data set이 있습니다. 그것은 IMDB 사용자 리뷰를 기반으로하며, 지역에 많은 related research work과 데이터 세트를 사용하는 방법을 확인할 수 있습니다.

이러한 방법의 효율성은 통계적 관점에서만 판단 할 수 있다는 점에 유의해야합니다. 따라서 오 분류가 발생하고 의견을 찾기가 어렵다고 가정 할 수 있습니다. 아이러니하고 풍자 같은 것을 감지하는 것은이 스레드에서 이미 알아 챘 듯이 참으로 어려울 수 있습니다.