2017-02-09 3 views
1

나는 분기를 내려갈 때 decision trees에 상당히 익숙하며 해석 할 때 약간의 어려움이 있습니다. 응답 변수는 Survived (Yes/No)이며, 연령, 요금, 형제 수 및 아래 의사 결정 트리에 첨부 된 부모 수에 의해 예측됩니다. Kaggle의 Titanic 데이터 세트.의사 결정 트리 해석 (타이타닉 데이터)

  1. 녹색/파란색의 다른 색상은 무엇을 의미합니까?
  2. 리프 노드를 어떻게 해석합니까?
  3. 저는 최상위 노드 inteprets가 38 %가 살아남은 것을 이해합니다. 62 %는 이 생존하지 못했고 인구의 100 %가 그 버킷에 있습니다. 을 오른쪽으로 이동하면 ... 버킷 # 3을 어떻게 해석할까요? 그리고 내가 계속 간다면, 버킷 # 6? 기타 등등 ...

Titanic Decision Tree

답변

0

1) 노드는 노드에 대응하는 다수의 클래스에 따라 착색된다. 대다수 등급 레이블이 no (생존하지 않음) 인 노드는 녹색으로 표시되고 그렇지 않으면 파란색으로 표시됩니다 (yes 또는 생존).

2) 맨 밑에있는 가장 왼쪽의 잎 노드를 해석해 봅시다. 노드에 대응하는 데이터 점의 83%은 클래스 라벨 no을 가지고 17%은 클래스 라벨 yes을 갖는다. 이 노드는 전체 데이터 세트의 62% 데이터 포인트를 포함합니다.

3) 버킷 # 3 유사하게 해석 될 수있다 : 노드에 해당하는 데이터 포인트의 26% 클래스 라벨 no을 가지고 있으며, 74% 클래스 레이블 yes 있습니다. 이 노드에는 전체 데이터 세트의 35% 데이터 포인트가 포함됩니다. 노드 # 2 및 # 3에 대한 no 레이블의 가중치 비율을 계산할 경우 no 레이블이 포함 된 루트 노드의 데이터 비율 인 0.65*0.81+0.35*0.26=0.6175~0.62이 표시됩니다.

+1

정말로 도움이됩니다. 감사합니다. 버킷 # 3에 대한이 해석이 유효할까요? 1) 여성의 경우 74 % 생존 (데이터의 35 % 이내) 2) 여성의 경우 26 %가 생존하지 못했습니다 (데이터의 35 % 이내) –

+0

예. –