2017-12-02 18 views
1

지니 인덱스를 기반으로 기능 선택을 위해 랜덤 포레스트를 사용하고 싶습니다. 내 데이터 세트에는 숫자 (연속) 및 범주 (문자열) 데이터가 혼합되어 있습니다. 이 데이터 세트의 예입니다Sklearn의 RandomForest에 대한 연속 변수의 이산화

VAR1 변수 2를 대입 할 때 변수
198 zcROj17IEC 336 DHeTmBftjz

나는 나무를 알고 이산 데이터에서 작동 (범주)하지만 랜덤 포레스트는 Sklearn에서하는가에 연속 숫자 데이터를 필요로 252.3 crIgUHSK8h (252) ZSNrjIX0Db 먼저 discretized 수 또는 그것을 처리 할 수 ​​?? 범주 문자열 변수의 경우 I는 0과 1

pandas.get_dummies(X['Var2']) 

로 숫자 열로 문자열을 인코딩하는 다음과 같은 사용하고는 작동하지만 숫자에 대해 나는이

pandas.qcut(X['Var1'], 2 , retbins=True) 

를 이산화하기 위해 다음과 같은 노력하지만 점점 계속 고유하지 않은 빈의 오류!

이산화가 필요합니까? 내가 어떻게 해?

+0

데이터 예가 명확하지 않습니다. 어떻게 테이블을 게시 할 수 있습니까 ?? – Sara

답변

0

임의의 포리스트는 연속 변수를 지원해야합니다. 예를 들어 this sample을 참조하십시오.

+0

이는 의사 결정 트리가 연속 변수를 지원한다는 것을 의미합니까? – Sara

+0

네, 맞습니다. 실제로 카테고리를 분류하지 않는 것이 좋습니다. 그러면 트리는 배포를 '자르는'위치를 최적으로 선택할 수 있습니다. 예 : 올바른 결정은 기능이 15 점 미만인지 또는 15 점 이상인지 여부를 결정한다고 가정 해보십시오. 이전에 점포 [0, 10], [10, 20], [20, 30] 등으로 이별하면 그 정보를 잃게됩니다. – Bennet

0

나무와 숲은 범주 값에서 인형을 만들 때 악화됩니다.

당신에게 분류 기능을 레이블 만하면됩니다. 그게 전부입니다!