2014-12-11 2 views
0

방금 ​​Weka로 작업을 시작했으며 결정 트리가 너무 깊을 때 이해할 수 없습니다. 423 개의 기능이 있는데, 내가 아는 한 모든 단일 목표에 대해 임의로 선택됩니다. 따라서 이러한 기능의 하위 집합은 일반화 된 것처럼 보이지 않는 결정 잎이있는 분기 나 흐름을 생성합니다. 실제로 코퍼스의 모든 사례 중 하나 또는 두 개의 사례 만 적용하기 때문에 너무 구체적입니다 (예 : 아니오 (2/0), 예 (1/0). 나는 일반화가 잘되어 있지 않다고 생각한다. 아마도 이것은 결정 트리가 너무 깊기 때문일 수도있다. 그래서 내 질문은, 어떤 나무의 maxDepth이어야합니까? 나무가 너무 깊다는 것을 어떻게 알 수 있습니까? 나는 시도했지만 maxDepth를 10으로 변경하면서 잎은 몇 가지 경우에 기반한 결정을 포함합니다. 또한 기본적으로 Weka는 10 개의 나무를 생성하며 더 많은 수의 나무를 설정하면 더 나은 결과를 얻을 수 있는지 궁금합니다. 나는 랜덤 포리스트가 100,300 또는 심지어 500 개의 나무로 잘 작동한다는 것을 읽었습니다.하지만 그것이 423 개의 피쳐 세트에서 작동하는지 모르겠습니다. 마지막으로,이 결정에서 "1"이 의미하는 바가 무엇인지 알고 싶습니다. "아니오 (632/1)". 632가 정확하게 "아니오"로 분류되었지만 하나는 "아니오"로 분류되어 "예"로 분류되었다는 의미입니까? "1"은 거짓 긍정인가? 도움 주셔서 감사합니다.WEKA - RandomForest 나무가 너무 깊을 때 어떻게 알 수 있습니까?

답변

1

이러한 시나리오에서 시도해 볼 수있는 가장 좋은 방법은 매개 변수를 통한 그리드 검색입니다. 따라서 성능 메트릭을 결정하고 다양한 매개 변수에 대한 값을 확인할 수 있습니다. 이는 최적의 매개 변수 설정을 결정할 때 유용합니다. 또한 교육 세트가 아닌 유효성 검증 세트에서 성능 메트릭을 계산하십시오.