0

현재 다중 클래스 분류 문제에서 scikit-learn에서 LogisticRegression을 사용하고 있습니다. LogisticRegression을 사용하기로 결정한 이유는 반환 된 예측 확률의 측면에서 잘 보정 된 알고리즘이라고 설명하는 몇 가지 기사를 읽었 기 때문입니다.LogisticRegression 예측 확률

분류 자의 각 결과에 대해 동일한 예측 클래스를 사용하여 훈련 세트에서 분류 된 관찰과 나머지 예제 사이의 거리뿐만 아니라 예측 확률을 검사합니다.

클래스가 90 % 신뢰도로 예측 된 경우에도 일부 결과에 대해 코사인 유사성 측정은 주어진 예제가 평균적으로 같은 세트의 예제와 거의 직각을 이루고 있음을 나타냅니다. 훈련 세트의 수업.

누군가 이러한 불일치가 관찰되는 이유에 대한 실마리를 제공해 줄 수 있습니까?

같은 클래스의 나머지 관찰과 상당히 다른 예제의 경우 LogisticRegression 알고리즘은 예측 확률이 낮을 것으로 기대합니다.

답변

1

로지스틱 회귀/분류는 결정 경계와 관련하여 결과를 제공하지만 경계의 같은쪽에있는 점 (즉, 같은 클래스에 속함)이 작은 코사인 거리를 가질 것이라는 보장이 없습니다 (또는 작은 유클리드 거리 거리).

y = 0 아래의 모든 점이 하나의 클래스에 속하며 위의 모든 점이 다른 클래스에 속하는 xy 평면의 점을 고려하십시오. 점 (-1000, 1)과 (1000, 1)은 같은 클래스에 속하지만 그 사이에는 비교적 큰 코사인 거리가 있습니다. 반면에 점 (1000, 1)과 (1000, -1)은 다른 클래스에 속하지만 코사인 거리가 매우 작습니다.