random-forest

    0

    1답변

    데이터가 있습니다. TC, 13 개 변수가 17744 개 있습니다. 마지막 변수는 target : a Factor w/ 2 levels "0", "1"입니다. 내가 할 : n.col <- ncol(TC) x.train.or <- TC[1:12000, -n.col] y.train.or <- TC[1:12000, n.col] x.test.or <- TC

    0

    1답변

    레이블이있는 약 50 행의 데이터가 있습니다. 데이터에는 진실원도 있습니다. 진실 소스는 최종 사용자 경험에 대해 설명합니다. 또한 50,000 개의 데이터 행이 있지만 데이터에 진실 소스가 없습니다. 다음을 수행 할 계획입니다. - 데이터의 50 행을 사용하여 랜덤 포리스트 분류자를 구성합니다. 데이터 세트의 시작 크기가 매우 작은 지 여부는 확실하지 않

    2

    1답변

    파티 라이브러리의 cforest 기능을 사용하여 기능의 중요성을 측정하고 싶습니다. 내 출력 변수는 클래스 0 2000 개 샘플 및 I 인해 클래스 불균형에 편견을 피할 수있는 좋은 방법은 이러한 표본을 사용하여 숲의 각 트리를 양성하는 것입니다 생각 1. 클래스 100 개 샘플 같은 것을 가지고 클래스 1의 요소의 수는 클래스 0의 요소의 수와 같습니다.

    0

    1답변

    수집 한 데이터가있는 임의의 숲을 연구 중입니다. 분류기를 테스트하고 테스트 세트에서 약 89 %의 정확도를 얻었습니다. 그러나 데이터를 제로 평균 및 단위 분산으로 스케일링하면 정확도가 거의 50 % 떨어졌습니다. 나는 this 게시물을 보았는데 나는 최적의 성능을 얻기 위해 데이터를 스케일링 할 필요가 없다고 제안하는 것 같다. 정확도가 크게 떨어질 수

    0

    1답변

    "캐럿"패키지의 독일 신용 데이터 세트를 가지고 놀고 있습니다. 그 결과 내가 테스트 세트에 결과 클래스를 예측하는 경우, 지금 library(caret) library(randomForest) library(pmml) data(GermanCredit) GermanCredit <- GermanCredit[, -nearZeroVar(GermanCre

    2

    2답변

    모델을 학습 한 후 교차 유효성 검사 후 예측 기능을 실행하려고합니다. 변수 "classe"를 예측하고 있습니다. 테스트 데이터는 적은 행 (20 회의 관측)을 제외하고는 훈련 데이터와 동일한 이름 지정자 수를 가지고 있습니다. 테스트 데이터의 모든 예측 변수는 숫자입니다 (교육 데이터와 동일). 그러나 내가 사용한 모델에 상관없이 문제를 일으키는 것처럼

    0

    1답변

    을 scikit 배우기 : 이제 clf1 = RandomForestClassifier() clf1.fit(data_training, non_binary_labels_training) prediction1 = clf1.predict(data_testing) clf2 = RandomForestClassifier() binary_labels = lab

    0

    1답변

    아래의 ROC 커브를 만들려고합니다. 예측 오류 (bc_rf_predict_prob, bc_test $ Class) : 예측 및 레이블에 대해 교차 유효성 검사 실행 수가 동일해야합니다. ($ 클래스 bc_test bc_rf_predict_prob) 예측에 library(mlbench) #has the Breast Cancer dataset in it l

    2

    1답변

    무작위 포리스트 분류기 계산에 임의성이 포함되므로 재현 가능한 결과를 얻으려면 임의 시드를 정의해야합니다. OpenCV CvRTrees에 대해 어떻게합니까? CvRTParams에 그러한 매개 변수가 표시되지 않습니다.

    1

    2답변

    누락 된 값을 처리하기 위해 R에서 Amelia 패키지를 사용하고 있습니다. 임의의 포리스트를 귀속 된 데이터로 조정하려고 할 때 아래 오류가 발생합니다. 난 내가 전가의 $의 imputations로 랜덤 포레스트 입력을 사용하는 경우 R. train_data<-read.csv("train.csv") sum(is.na(train_data)) imput