2012-01-13 6 views
1

훈련 세트에 예제가 너무 적 으면 ID3을 사용하여 의사 결정 트리 빌드를 제거하는 방법.가지 치기 결정 트리

교육, 검증 및 테스트 세트로 나눌 수 없으므로 문제가되지 않습니다.

사용할 수있는 통계 방법이 있습니까?

답변

2

예 데이터 양이 적을 때 교차 유효성 검사를 사용하여 데이터 집합을 조정하고 정리할 수 있습니다. 아이디어는 매우 간단합니다. 데이터를 N 개 세트로 나누고 그 중 N-1 개를 사용하여 트리를 교육하십시오. 가지 치기 테스트 세트로 사용하는 마지막 세트. 그런 다음 N 세트 중 다른 세트를 선택하여 제외하고 동일한 작업을 수행합니다. 모든 세트를 빠져 나올 때까지이 작업을 반복하십시오. 즉, N 개의 나무를 만들었습니다. 이 N 개의 트리를 사용하여 트리의 최적 크기를 계산 한 다음 해당 트리를 잘라내 기 위해 계산을 사용하여 전체 데이터 집합을 학습합니다. 여기서 효과적으로 설명 할 수있는 것보다 더 복잡하지만, 교차 유효성 검사를 ID3에 적용하는 방법에 대한 기사가 있습니다.

dW1eIKA87pO6eAVtIow "> http://www.google.com/url?sa=t & RCT = J & Q = & ESRC = S & 소스 = 웹 & CD = 1 & VED = 0CE4QFjAA & URL = HTTP % 3A % 2F %의 연구

로트는 그것이 무엇 교차 검증의 적절한 분할 및 실시 된 2Fjmlr.csail.mit.edu % 2Fpapers % 2Fvolume3 % 2Fblockeel02a % 2Fblockeel02a.ps & EI = iwDcT8XfE5KY8gT2oYW7Cg & USG = AFQjCNFHY29x3_dW1eIKA87pO6eAVtIow 발견 된 N = 10은 주어진 추가 처리 시간에 대해 최상의 결과를 제공합니다. 교차 유효성 검사는 귀하의 컴퓨터를 증가시킵니다 시간이 많이 걸린다 (잘 N 번). 그러나 데이터 양이 적 으면 적은 수의 샘플을 극복 할 수있다. 그리고 교차 검증을 사용한다는 의미의 데이터가 많지 않기 때문에 계산적으로 그렇게 나쁜 것은 아닙니다.