2013-04-28 9 views
1

MAX33 등급의 경우 classifier.show_most_informative_features(10)을 이해하려고합니다. 나는 열은 다음 출력 예를 들어, 표시 이해하지 않습니다MAXent 분류 자 ​​NLTK 산출물 이해

train on 460 instances, test on 154 instances accuracy: 0.61038961039 
pos precision: 0.432989690722 
pos recall: 0.893617021277 
neg precision: 0.912280701754 
neg recall: 0.485981308411  
-4.141 need==True and label is 'REL'  
3.395 approves==True and label is 'IRREL' - 
3.308 took==True and label is 'IRREL' 
-1.766 treat==True and label is 'REL' 
-1.488 tired==True and label is 'IRREL' 
-1.295 gave==True and label is 'IRREL' 
0.879 need==True and label is 'IRREL' 
+0

코드를 공유해 주실 수 있습니까? 그리고 어떻게 모든 정밀도와 회수 값을 생성 했습니까? –

답변

1

당신이 두 개의 레이블, "RELEVANT""IRRELEVANT"이 보인다. 레이블이 두 개인 경우 일반적으로 "1"또는 양수, 다른 하나는 "-1"또는 음수입니다.

학습 프로세스 중에 분류자는 460 개의 학습 인스턴스의 기능을 분석하고 두 레이블간에 구분할 수있는 능력에 따라 가중치를 부여합니다. 가중 프로세스의 세부 사항은 선택한 알고리즘에 따라 다릅니다.

Poitive 정밀 : 정말 레이블이 시험 중에 라벨 1로 분류 된 154 개 테스트 인스턴스의 43 % 1.

긍정적 리콜 : 테스트의 라벨 (1 개) 인스턴스의 89 % 세트가 발견되었습니다. 즉, 레이블 1로 분류됩니다.

음수 정밀도/음수 리콜은 동일하지만 레이블 -1에 대해 동일합니다.

정확도 : 154 개의 테스트 인스턴스 중 61 %가 올바르게 레이블되었습니다.

지형지 물은 분류와의 관련성에 해당하는 절대 값에 따라 정렬됩니다. 이 경우 가장 유용한 ""기능은이고, 이것이 사실이라면 인스턴스의 레이블이 "RELEVANT"여야한다는 매우 유용한 힌트입니다.

+0

이것은 유용합니다. 그러나 피쳐 순위에서 + ve와 -ve의 의미가 무엇인지 밝힐 수 있습니까? –