-1

저는 기계 학습을하고 udacity를 처음 접하는 ML 과정을 소개합니다. 당연히 결정 트리와 무작위 포리스트 분류 자에 관해서는 의심의 여지가 있습니다.의사 결정 트리 고유성 sklearn

의사 결정 트리가 고유 한가요? 그것은 각 분할에 대한 정보 이득을 최대화 할 때 고유해야한다고 생각합니다. 이제 고유 한 경우 의사 결정 트리 분류 자의 random_state 매개 변수가 있습니다. Decision tree가 유일 할 때마다 random_state가 필요하지 않으므로 언제든지 재현 할 수 있습니다.

임의의 포레스트 알고리즘을 거치면서 각 클래스의 확률이 개별 트리에서 평균된다는 것을 알았지 만 의사 결정 트리는 각 클래스의 확률을 예측하지 않습니다.

제발 정정 해주세요. 제 잘못을 분명히 해주십시오. 좋은 대답을 얻으시기 바랍니다.

답변

0

심지어 코드를 확인하지 않고, 당신은 문서에 this note 표시됩니다

특징은 항상 무작위로 각 분할에 순열된다. 따라서 최상의 분할을 검색하는 동안 열거 된 여러 개의 분할에 대해 기준의 개선이 동일하면 동일한 학습 데이터 및 max_features = n_features로도 가장 잘 나온 분할이 달라질 수 있습니다. 피팅 중에 결정적 동작을 얻으려면 random_state를 수정해야합니다. splitter='best'를 들어

,이 here 일어나고 :
# Draw a feature at random 
f_j = rand_int(n_drawn_constants, f_i - n_found_constants, 
       random_state) 

그리고 다른 질문에 대한

this 읽어

을 ...

을 그냥 트리를 구축되도록 잎은 단일 클래스 추정뿐만 아니라 확률 추정도 포함합니다. 이는 표준 의사 결정 트리 알고리즘을 실행하고이를 통해 많은 데이터를 실행하고 예측 된 레이블이 각 리프에서 올바른 부분을 계산함으로써 간단히 수행 할 수 있습니다. 이것은 sklearn이하는 것입니다. 이들은 종종 "확률 추정 트리 (probability estimation tree)"라고 불리며, 완벽한 확률 추정치를 제공하지는 않지만 유용 할 수 있습니다. 때로는 더 멋진 접근법을 사용하여 '00 년대 초반에 그들을 조사하는 작업이 있었지만, sklearn의 단순한 것은 숲에서 사용하기에 알맞다.

...