지니 인덱스를 기반으로 기능 선택을 위해 랜덤 포레스트를 사용하고 싶습니다. 내 데이터 세트에는 숫자 (연속) 및 범주 (문자열) 데이터가 혼합되어 있습니다. 이 데이터 세트의 예입니다Sklearn의 RandomForest에 대한 연속 변수의 이산화
VAR1 변수 2를 대입 할 때 변수
198 zcROj17IEC 336 DHeTmBftjz
나는 나무를 알고 이산 데이터에서 작동 (범주)하지만 랜덤 포레스트는 Sklearn에서하는가에 연속 숫자 데이터를 필요로 252.3 crIgUHSK8h (252) ZSNrjIX0Db 먼저 discretized 수 또는 그것을 처리 할 수 ?? 범주 문자열 변수의 경우 I는 0과 1
pandas.get_dummies(X['Var2'])
로 숫자 열로 문자열을 인코딩하는 다음과 같은 사용하고는 작동하지만 숫자에 대해 나는이
pandas.qcut(X['Var1'], 2 , retbins=True)
를 이산화하기 위해 다음과 같은 노력하지만 점점 계속 고유하지 않은 빈의 오류!
이산화가 필요합니까? 내가 어떻게 해?
데이터 예가 명확하지 않습니다. 어떻게 테이블을 게시 할 수 있습니까 ?? – Sara