27

데이터 마이닝에 대한 연구를하고 있습니다. 더 정확하게는 의사 결정 트리입니다.복잡성이나 성능을 비교 한 다른 의사 결정 트리 알고리즘

나는 의사 결정 트리 구축 (또는 하나?) 여러 알고리즘이 있는지 알고 싶습니다, 그리고 어떤는

  • 성능
  • 같은 기준 복잡성
  • 에 따라, 더 나은 의사 결정시 오류
  • 이상.
+0

buzzwordish 데이터 마이닝 대신 기계 학습을 분류로 재 지정했습니다. –

답변

67

결정 트리 구현은 주로이 축을 따라 다르다 :

  • 분할 기준 (즉, "분산"계산 방법)은 대한 모델을 구축 여부

  • 회귀 (연속 변수, 예 : 점수)뿐만 같은 분류 (이산 변수, 예를 들면, 클래스 라벨)

  • 피팅 오버가 불완전한 데이터를 처리 할 수 ​​있는지 여부 을 감소/제거

  • 기술


주요 결정 트리 구현은 :

  • ID3 또는 반복 Dichotomizer는 로스 퀸란 (퀸란, 의사 결정 나무의 J. R. 1986 유도에 의해 개발 된 세 개의 의사 결정 나무 구현의 제였다. 마하. 배우다. 1, 1 (1986 3월), 81-106.)

  • 쇼핑 카트에 담기, 또는 분류와 회귀 나무는 분명히 더를 가지고 있지만 종종, 용어의 의사 결정 트리에 대한 일반 약어로 사용된다 구체적인 의미. 요컨대, CART 구현은 C4.5와 매우 유사합니다. 주목할만한 차이점은 CART가 데이터에 반복적으로 적용되는 수치 분할 기준에 따라 트리를 구성하는 반면 C4.5는 규칙 세트을 생성하는 중간 단계를 포함한다는 것입니다.

  • C4.5, Quinlan의 다음 반복.새로운 기능 (ID3 대비)은 다음과 같습니다. (i) 연속 및 개별 기능을 모두 허용합니다. (ii) 불완전한 데이터 포인트를 처리; (iii) "정리 (pruning)"라고 알려진 상향식 기법 (매우 영리한)에 의한 과도기 문제를 해결합니다. (iv) 서로 다른 가중치는 훈련 데이터를 구성하는 피처에 적용될 수 있습니다. 이 중 첫 번째 세 개의이 매우 중요합니다. 내가 선택한 모든 DT 구현에는 세 가지가 모두 포함될 것을 제안합니다. 네 번째 (차동 가중치)는 훨씬 덜 중요합니다.

  • C5.0 가장 최근의 Quinlan 반복입니다. 이 구현은 이며 특허로 인해 아마도 상용 소프트웨어 패키지 외부에서는 으로 거의 구현되지 않습니다. 필자는 C5.구현을 코딩 한 적이 결코 없으므로 (나는 소스 코드를 본 적이 없다) C5.0과 C4.5의 정보를 비교할 수는 없습니다. 나는 항상 에 대해 발명가 (Ross Quinlan)가 주장한 개선 사항에 회의적이었습니다. 예를 들어, 그는 "몇 가지 크기의 주문"이라고 주장합니다. 은 C4.5보다 빠릅니다. 다른 주장들은 비슷하게 광범위하다 ("훨씬 더 효율적이다"). 두 기술의 비교 결과를보고하는 studies 을 알려 드리겠습니다. 직접 결정할 수 있습니다.

  • CHAID (카이 제곱 자동 상호 작용 검출기는) 실제로 (1980 년 고든 카스하여 박사 학위 논문에 발표) 약 6 년까지 원래의 ID3 구현을 선행한다. 사실 MARS, 샐 퍼드 시스템의 원래 발명가에 의해 상표 용어입니다이 technique.The R 플랫폼에 대한 모든 조금 우수한 문서

  • MARS (멀티 적응 회귀 스플라인)을 포함 CHAID라는 패키지가 알고 . 결과로 Salford가 판매하지 않은 라이브러리의 MARS 클론은 MARS가 아닌 다른 이름을 갖습니다. 예를 들어 R에서는 관련 함수가 폴리 스플라인 라이브러리의 폴리 마 (polymars)입니다. MATLAB과 STATISTICA는

나는 쇼핑 카트에 담기 또는 C4.5 (나는 그들의 기능을 잘 알고 있지만 다시하지만, 내가, C5.0 또는 CHAID와 직접적인 경험이없는 것이 좋습니다 MARS-기능을 구현이 세트).

C4.5는 Orange에 구현 된 의사 결정 트리입니다. CART는 sklearn의 맛입니다. 훌륭한 ML 라이브러리에서 뛰어난 구현을 자랑합니다.

C4.5는 ID3 넘어 중요한 단계 - 범위면 (C4.5 그것이 트레이닝 데이터 연속 변수를 처리 할 수 ​​있기 때문에 훨씬 더 넓은 사용 사례 스펙트럼을 갖는다)과 모델의 관점에서 양쪽 품질.

아마도 C4.5 대 C5.0의 가장 중요한 주장 개선 나무을 증폭에 대한 지원이다. DT의 Ensemble 지원 - 강화 된 나무 및 랜덤 포리스트 -가 Orange의 DT 구현에 포함되었습니다. 여기, 앙상블 지원이 C4.5 알고리즘에 추가되었습니다. sklearn은 또한 임의의 숲 및 부스팅 방법의 범위를 갖추고 있습니다.

+1

고마워요. 명확하고 명확한 포인트 – Youssef

+0

@ Youssef : 문제 없습니다. (제 원래 답변에는 sklearn의 구현에 관한 잘못된 설명이 포함되어 있습니다. 게시 후 확인하고 지금 수정했습니다.) – doug

+6

CART와 ID3, C4.5, C5.0은 분할 방식이 다릅니다. CART는 다른 트리가없는 2 진 트리입니다. 즉, CART는 여러 개의 개별 값을 선택하여 분할합니다. 예를 들어 피쳐가 {red, green, blue} 인 경우 왼쪽의 {red, green}과 오른쪽의 {blue}로 나뉘거나 3의 모든 조합을 사용할 수 있습니다. CART는 이산 값뿐만 아니라 연속 값도 처리합니다 . – chubbsondubs