1

여러 문서 추출 텍스트 요약에 분류 기술을 사용하고 있습니다. f-measure, recall, precision 및 accuracy를 계산했습니다. 이 방법으로 생성 된 요약을 평가하기 위해 여기 내 목적에 맞는 이상적인 측정 기준은 무엇입니까?추출 텍스트 요약 방법의 정확성을 테스트하기 위해 널리 사용되는 평가 메트릭스는 무엇입니까?

+1

이 질문은 작업중인 응용 프로그램 문제에 대한 몇 가지 추가 컨텍스트, 데이터의 특성 등을 제공하여 스택 교환 사이트에 더 적합하게 만들 수 있습니다.이 컨텍스트 외부에서는 일반적인 휴리스틱 조언 만 제공 할 수 있습니다. 교과서 나 Google 검색에서 찾을 수 있습니다. 이러한 사이트는 그런 종류의 개방 된 조언을 의미하지 않습니다. 또한이 질문은 메트릭 선택의 통계적 의미에 대한 내용으로,이 사이트의 특정 프로그래밍 관련 특성에 대한 주제가 아닙니다. stats.stackexchange.com을 사용해보십시오. – ely

+0

그대로 마이그레이션하는 것을 권장하지 않습니다. 질문은 매우 광범위합니다. 우선 명확히해야한다고 생각합니다. 이 맥락에서'메트릭 '이란 무엇을 의미합니까? 예측을 평가할 때'f-measure','recall','precision' 및''accuracy' 중 어느 것을 사용해야하는지 묻고 있습니까? – cel

+0

개방형 질문에 사과드립니다. 명확히하기 위해 요약 요약의 품질에 대한 아이디어를 얻기 위해 어떤 값을 계산할 수 있는지 알고 싶습니다. 어떤 사람들은 [ROUGE] (http://www.berouge.com)를 사용합니다. 다른 방법을 사용하여 생성 된 요약 품질을 비교하기 위해 계산할 수있는 그러한 일반 메트릭이 더 있습니까? – Explorer

답변

2

ROUGE는 ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S와 같은 다양한 측정 항목에 대해 리콜, 정밀도 및 F- 측정 값을 계산합니다. Here은 ROUGE 용 용지입니다.

ROUGE-N은 n-grams을 총 n-gram 수로 나눈 수입니다.

ROUGE-L은 두 텍스트의 가장 긴 공통 부분 시퀀스를보고 1,3,51,2,3,4,5의 하위 시퀀스가되도록 부분 시퀀스에 간격을 포함 할 수 있습니다.

또한 ROUGE-W는 스코어로 가장 긴 공통 서브 시퀀스를 사용하지만 간격이 적은 서브 시퀀스에 더 높은 가중치를 부여합니다.

ROUGE-S는 skip-bigrams를 사용합니다. skip-bigram은 문장 순서가 맞으면 2 단어를 포함 할 수있는 2 그램입니다. 즉 연속적 일 필요는 없습니다.

+0

내 금 (참조) 요약이 사람이 작성하고 시스템 생성 요약에있는 것과 동의어 인 단어가있는 경우 ROUGE는이를 고려할 것입니까? – Explorer

+0

아니요, ROUGE는 동의어를 고려하지 않으며 [lemmatisation]을 적용하지 않습니다 (http://en.wikipedia.org/wiki/Lemmatisation). 그러나 [형태소 분석] (http://en.wikipedia.org/wiki/Stemming)에 대한 옵션이 있습니다. – jksnw

+0

ROUGE와 비슷한 것이 있습니까? 루지가 동사를 적용하지 않으면 커뮤니티가 널리 받아 들였습니까? – Explorer