정확도를 극대화 할 때 AUC를 극대화하는 것이 우리의 목표 인 이유가 궁금합니다.분류 문제에서 AUC를 극대화하려는 이유는 무엇입니까?
정확도를 극대화하려는 기본 목표와 함께 AUC가 자동으로 커집니다.
정확도를 극대화 할 때 AUC를 극대화하는 것이 우리의 목표 인 이유가 궁금합니다.분류 문제에서 AUC를 극대화하려는 이유는 무엇입니까?
정확도를 극대화하려는 기본 목표와 함께 AUC가 자동으로 커집니다.
우리의 방법이 임계 값과 독립적으로 데이터를 얼마나 잘 분리 할 수 있는지 설명하기 때문에 AUC를 사용합니다. 일부 응용 프로그램의 경우 우리는 위양성 또는 음성을 원하지 않습니다. 그리고 우리가 정확도를 사용할 때, 우리는 이미 특이성과 민감도에 관계없이 데이터를 분리하기위한 최상의 문턱 값을 선험적으로 만듭니다. .
이진 분류에서 정확도는 특정 임계 값에 대한 단일 모델의 성능 메트릭이며 AUC (ROC 곡선 아래의 영역)는 일련의 임계 값에 대한 일련의 모델의 성능 메트릭입니다.
이 질문으로 인해 AUC와 정확도 비교에 대해 많은 것을 배웠습니다. 저는 두 사람 사이에 상관 관계가 있다고 생각하지 않습니다. 그리고 나는 이것이 여전히 열린 문제라고 생각합니다. 이 대답의 끝에서 나는 유용하다고 생각하는 these과 같은 링크를 추가했습니다. 정확도가 실패
한 시나리오 :
문제의 예
는 의 데이터 세트에 대한 모델의 성능을 평가하는 곳의 이진 분류 문제를 생각해 보자 100 샘플들 (, 클래스 0
및 은 1
).
정교한 기계 학습 모델을 꺼내어 입력 내용이 무엇이든 항상 0
을 출력하는 바보 시스템으로 모든 것을 바꿉니다. 정확도는 지금 무엇입니까?
Accuracy = Correct predictions/Total predictions = 98/100 = 0.98
우리는
"항상 0
" 시스템의 놀라운 98 %의 정확도를 얻었다.
이제 암 진단 시스템으로 시스템을 전환하고 일련의 환자에 대해 (0
- 암 없음, 1
- 암)을 예측하기 시작합니다. 클래스 1
에 해당하는 몇 가지 사례가 있다고 가정하면 높은 정확도를 유지할 수 있습니다.
높은 정확성에도 불구하고, 1
(암에 걸린 환자 확인)에서 잘 수행되지 않으면 시스템의 요점은 무엇입니까?
이 관찰은 정확성이 기계 학습 문제의 모든 유형에 대한 좋은 평가 메트릭 아님을 시사한다. 위의 것은 불균형 계급 문제로 알려져 있으며, 이러한 성질의 실질적인 문제가 충분합니다.정확도와 AUC의 비교에 관해서는
, 여기에 내가 유용하다고 생각되는 몇 가지 링크,
암은 - "AUC의 극대화는 같은 문제에 다른 분류 모델을 비교할 때 고려하며 하나 개의 특정 분류 모델에서 AUC를 극대화하기 위해 논리적하지 않다"? –
단일 모델에 대해 높은 AUC를 갖는 것이 이치에 맞습니다. 우리가 얻을 수있는 최적의 ROC 곡선은 False Positive Rate = 0의 단계가있는 계단 함수라는 점을 상기하십시오. 저것 또는 sub-optimal 곡선조차 (AUC> 0.5가) - 의미 하는가? 거짓 포지 티브 (False Positve) 등급이 높아질 수있는 한계점에 대해서도 높은 True Positve Rates를 얻게됩니다. – akilat90