현재 다중 클래스 분류 문제에서 scikit-learn에서 LogisticRegression을 사용하고 있습니다. LogisticRegression을 사용하기로 결정한 이유는 반환 된 예측 확률의 측면에서 잘 보정 된 알고리즘이라고 설명하는 몇 가지 기사를 읽었 기 때문입니다.LogisticRegression 예측 확률
분류 자의 각 결과에 대해 동일한 예측 클래스를 사용하여 훈련 세트에서 분류 된 관찰과 나머지 예제 사이의 거리뿐만 아니라 예측 확률을 검사합니다.
클래스가 90 % 신뢰도로 예측 된 경우에도 일부 결과에 대해 코사인 유사성 측정은 주어진 예제가 평균적으로 같은 세트의 예제와 거의 직각을 이루고 있음을 나타냅니다. 훈련 세트의 수업.
누군가 이러한 불일치가 관찰되는 이유에 대한 실마리를 제공해 줄 수 있습니까?
같은 클래스의 나머지 관찰과 상당히 다른 예제의 경우 LogisticRegression 알고리즘은 예측 확률이 낮을 것으로 기대합니다.