나는 훈련 데이터 (~ 30mb)에 맞게 scikit-learn Random Forest를 사용하고 있으며, 내 랩톱은 응용 프로그램 메모리가 중단되는 것을 계속합니다. 테스트 데이터는 교육 데이터보다 몇 배 더 큽니다. Macbook Air 2GHz 8GB 메모리 사용.랜덤 포레스트 : 메모리 부족으로 인해
이 문제를 해결할 수있는 방법은 무엇입니까?
rf = RandomForestClassifier(n_estimators = 100, n_jobs=4)
print "20 Fold CV Score: ", np.mean(cross_validation.cross_val_score(rf, X_train_a, y_train, cv=20, scoring='roc_auc'))
사용중인 scikit-learn의 버전은 무엇입니까? 0.15 버전에서는 포리스트에서 메모리 소비가 크게 향상되었습니다. –
'0.15.2'. 순차적으로 구축 된 GBRT로 전환을 시도했지만 어떻게 든 메모리가 부족합니다. EC2 클러스터에서 실행하거나 무작위 샘플링을 실제로 시도해야한다는 의미입니까? – ananuc
@AndreasMueller : Advanced Sklearn에 대한 유용한 토론에 감사드립니다. 어쩌면 거기에서 몇 가지 아이디어를 시도해 볼 수 있습니다. EC2에 대한 ogrisel의 병렬 ML 튜토리얼을 살펴볼 기회가 없습니다. 어떤 시점을 넘어서서 회전하는 EC2 클러스터를 고려할 필요가 있는지 궁금합니다. – ananuc