2013-11-20 4 views
2

R 소프트웨어와 rpart 패키지로 의사 결정 트리를 만들어야합니다. 제 논문에서 ID3 알고리즘을 먼저 정의하고 다양한 의사 결정 트리를 구현해야합니다.누군가 ID3와 CART 알고리즘의 차이점을 설명 할 수 있습니까?

rpart 패키지가 ID3 알고리즘과 작동하지 않는다는 것을 알게되었습니다. 그것은 CART 알고리즘을 사용합니다. 차이점을 이해하고 제 논문의 차이점을 설명하고 싶습니다. 그러나 양면을 비교 한 문헌을 찾지 못했습니다.

도와 주시겠습니까? 둘 다 비교되는 종이를 알고 있습니까? 아니면 그 차이를 설명 할 수 있습니까?

+0

다른 손실 함수를 사용합니다. 위키피디아 참조 : http://en.wikipedia.org/wiki/Classification_and_regression_tree#Formulae –

+1

유일한 차이점은 ID3가 Entropie에서 정보 획득을 사용하고 Gini 불순물을 CART합니까? – user2988757

답변

1

을 통해 읽을 나는 원문 1,2하지만 일부 보조 소스를 사용하여 이러한 재귀 ("욕심") 파티션 사이의 키 차이 ("트리") 알고리즘에 액세스 할 수 없습니다 학습의

  1. 유형 : 것 같다 ", 반복 Dichotomiser"

    • ID3,로는 이진 분류 만
    • CART 또는 "Class 회귀 트리"는 알고리즘 계열 (이진 분류 트리 학습을 포함하되 이에 국한되지 않음)입니다. rpart()을 사용하면 method='class' 또는 method='anova'을 지정할 수 있지만 rpart은 종속 변수 유형 (즉, 요인 또는 숫자)에서이를 추론 할 수 있습니다.
  2. 분할 선택에 사용되는 손실 함수. 다른 코멘트 언급이

    • 는 ID3에서는, 부모 노드 (가중 합) 자식 노드 사이 entropy 감소 게인되는 정보에 기초하여 그 분할을 선택한다. 분류를 위해 사용될 때
    • CART는 CART가 종종 사용되는 반면 개업 같이 I 좀처럼 용어 ID3 사용 듣고, 일화 Gini impurity

최소화 서브 세트를 달성하기 위해 분할을 선택 의사 결정 나무를 포괄하는 용어. CART는 R의 rpart 패키지에서 매우 널리 사용되고 있습니다. ?rpart은 "대부분의 세부 사항에서 그것은 Breiman et al (1984)에 매우 가깝다."

그러나 rpart(..., parms=list(split='information'))을 전달하면 기본 동작을 무시하고 대신 정보 게인으로 분할 할 수 있습니다.

Quinlan, J. R. 1986.결정 나무 유도. 마하. 배우다. 1, 1 (1986 년 3 월), 81-106

Breiman, Leo; Friedman, J.H .; Olshen, R.A .; Stone, C.J. (1984). 분류 및 회귀 나무. 몬트레이, 캘리포니아 : Wadsworth & Brooks/Cole Advanced Books & 소프트웨어.