랜덤 포리스트 반복의 평균을 취하는 방법은 무엇입니까?

-2

랜덤 포리스트 (또는 다른 평가자)를 여러 번 실행하여 실행 간 차이를 부드럽게 할 수있는 sklearn의 매개 변수가 있습니까? 이 작업을 수행하는 가장 간단한 방법은 무엇입니까?랜덤 포리스트 반복의 평균을 취하는 방법은 무엇입니까?

출처

2017-10-24 mowglis_diaper

실행 사이의 유사성을 수동으로 간단하게 부드럽게 처리 할 수는 없습니다. 당신이 할 수있는 일은 GridSearchCV을 사용하여 하이퍼 파라미터 튜닝을 수행하는 것입니다 (또는 비슷한 다른 방법을 at this link으로 볼 수도 있습니다) 또한 추정기의 성능을 높이기 위해 데이터 세트의 Cross-validation을 볼 수도 있습니다. 우리는 더 나은 당신을 도울 수 있도록 Sklearn for cross-validation에.

또한 등 당신이 해결하는 문제, 데이터 세트의 유형과 같은 문제에 대한 더 많은 정보를 제공해 주시기 바랍니다.

출처

2017-10-24 05:59:47

VotingClassifier 소프트 투표로 당신이 무엇을 할 수 일반적으로 두 가지 예측 집합이 주어지면 예측의 기하 평균을 사용하여이를 부드럽게 만들 수 있습니다.

from scipy.stats.mstats import gmean 
df = pd.DataFrame() 
#prediction renamed in 1.csv,2.csv... for convenience 

for i in range(1,4): 
    data = pd.read_csv('{}.csv'.format(i),index_col='id') 
    data = data.rename(columns={'proba':i}) 
    df = pd.concat([df,data],axis=1) 

df['proba'] = gmean(df.iloc[:,1:4],axis=1) 
output = pd.DataFrame(data={'id':df.index,'proba':df.proba}) 
output.to_csv('submissions.csv',index=False)

출처

2017-10-24 14:49:48 chrisckwong821

랜덤 포리스트 반복의 평균을 취하는 방법은 무엇입니까?

답변

관련 문제