2013-12-08 8 views
2

우리는 세 가지 수업을 상상해"합의"

P(d, A) = 0.50 
P(d, B) = 0.25 
P(d, C) = 0.25 

P(d, A) = 0.50 
P(d, B) = 0.49 
P(d, C) = 0.01 

이 두 가지의 차이를 득점 할 수있는 방법이 있나요 :

나는 그 확률이 ​​세트에서, 방법으로, 매우 다른 느낌?

답변

3

당신이 직면 한 문제는 종종 분류 자들 사이에서 "합의"라고 불립니다. 멀티 라벨 MaxEnt는 N 개의 독립적 인 분류기로 볼 수 있으므로, 다른 클래스에 대한 "투표"모델 그룹으로 생각할 수 있습니다.

이제 이러한 "일치"를 계산하는 여러 방법을 포함하여, 거기 :

  • 여유 "순"계산 - 커 마진 -은 "승리"클래스 확률 두번째 차이점 - 분류
  • 엔트로피 자부 - 더 확신 결정 등 KL 발산 관련된
  • 약간 더 작은 방법을 생성 확률 분포의 엔트로피
,174,

일반적으로 결과 분포의 "균일 성"(덜 확신하는 결정) 또는 "스파이크"(더 확실한 분류를 나타냄)를 탐지하는 방법에 대해 생각해야합니다.

+0

+1 엔트로피. 재미있는 사실 : Max Ent 분류기가 그렇게 호출되는 이유는 교육 데이터를 존중하면서 P (input | input)의 엔트로피를 최대화하려고 시도한다는 것입니다. 어떤면에서, 분류자는 트레이닝 데이터와 일치하는 가장 편향된 확률 분포를 찾으려고합니다. – mbatchkarov

+0

균일 성은 잘못 될 수 있습니다. 가난한 확률 모델은 종종 매우 부정확 한 후위를 제공 할 수 있습니다. 교차 엔트로피 (KL Divergence)를 통해 정확한 후부를 참조하여 배포가 올바른지 확인해야합니다. 어쨌든 균일 한 posteriors는 실제로 정확할 ... –

1

당신이 찾고있는 것은 교차 엔트로피입니다 : 특히, 당신은 당신의 분급기에 의한 하나의 출력으로 실제 분포를 근사하는 비용을 계산하고자합니다. 확률 론적 다중 클래스 분류기는 많은 경우에이를 직접 최적화합니다. this을보십시오.