2014-04-24 4 views
0

저는 CART 알고리즘에 기반한 의사 결정 트리를 구현하고 있습니다. 이제 데이터를 분류 할 수는 있지만 데이터를 분류하는 것만이 아닙니다. 최종 노드에서 올바른 분류의 가능성을 원합니다. 예를 들면. 나는 클래스 A와 B의 데이터를 포함하는 데이터 세트를 가지고 있습니다. 어떤 클래스의 인스턴스를 내 트리에 넣을 때 인스턴스가 클래스 A와 클래스 B에 속할 확률을 알고 싶습니다. 어떻게 할 수 있습니까? 어떻게 최종 노드에서 확률 분포를 갖도록 CART를 향상시킬 수 있습니까?의사 결정 트리에서 분류의 확률을 얻으십시오

+0

그리고 질문은 무엇입니까? – J0HN

+0

@ J0HN 어떻게 최종 노드에서 확률 분포를 갖도록 CART를 향상시킬 수 있습니까? CART를 다른 알고리즘으로 변경해야 할 수도 있습니다. – Wishmaster

+0

저는 전문가는 아니지만 수학적 알고리즘이므로 [math.stackexchange.com] (http://math.stackexchange.com/)에서 더 나은 답변을 얻을 수 있습니다. – J0HN

답변

0

교육 데이터 세트를 사용하여 트리를 교육하면 데이터를 분할 할 때마다 왼쪽 및 오른쪽 노드가 클래스 A 및 클래스 B의 특정 비율의 인스턴스로 끝납니다. 인스턴스 비율 클래스 A (또는 클래스 B)의 확률은 확률로 해석 될 수 있습니다.

예를 들어, 훈련 데이터 세트에 A 급 50 개 항목과 B 급 50 개 항목이 있다고 가정하십시오. 한 레벨의 트리를 작성하여 데이터를 한 번 분할하십시오. 분할 후 왼쪽 노드는 클래스 A의 인스턴스 40 개와 클래스 B의 인스턴스 10 개를 가지며 오른쪽 노드는 클래스 A의 인스턴스 10 개와 클래스 B의 인스턴스 40 개를 갖습니다. 이제 노드의 확률은 40/(10 + 40) = 왼쪽 노드의 클래스 A는 80 %이고, 왼쪽 노드의 클래스 A는 10/(10 + 40) = 20 %입니다 (클래스 B의 경우도 마찬가지입니다).

더 깊은 트리에도 똑같이 적용됩니다. 클래스 인스턴스를 계산하고 비율을 계산합니다.