내가이 분야에서 새로운 오전 숙제이 경우 https://github.com/auduno/Kaggle-Acquire-Valued-Shoppers-Challenge/blob/master/generate_submission.py이 케이스는 위의 예측을 어떻게 혼합하고 모든 열차 데이터를 두 부분으로 나누는가?
을 수행하는 몇 가지 코드를 읽으려고, 프로그래머는 두 부분으로 전체 훈련 데이터를 분할하고 오직 훈련과 다른 부분을 예측 한 부분을 사용합니다. 나는 이것에 대해 시험 부분과 함께 혼란스러워한다.
test_data = pd.io.parsers.read_csv("./features/test/all_features.csv", sep=" ")
train_data = pd.io.parsers.read_csv("./features/train/all_features.csv", sep=" ")
split = ShuffleSplit(train_data.shape[0], n_iter = 1, test_size=0.10)
for tr, te in split:
train1, train2 = tr, te
또한 블렌드 부분에서 모든 예측 데이터를 함께 처리하는 과정을 이해할 수 없습니다. pred_train
및 pred_test
은 모두 예측 된 데이터이지만 다시 훈련하는 데 사용합니까? 그것에 대해 설명해 주시겠습니까? 고마워.
############### BLEND
dtrain2 = xgb.DMatrix(pred_train, label=train2_label.values)
dtest = xgb.DMatrix(pred_test)
print "training blend : xgb trees booster logistic regression, max depth 2"
param = {'bst:max_depth':2, 'bst:eta':0.1, 'silent':1, 'objective':'binary:logistic', 'nthread' : 8, 'eval_metric':'auc' }
num_round = 50
bst = xgb.train(param, dtrain2, num_round)
pred_label_test = bst.predict(dtest)
print "training blend : xgb linear booster logistic regression"
param = {'booster_type':1, 'bst:lambda':0, 'bst:alpha':0, 'bst:lambda_bias':0, 'silent':1, 'objective':'binary:logistic', 'nthread' : 8, 'eval_metric':'auc' }
num_round = 25
bst = xgb.train(param, dtrain2, num_round)
pred_label = bst.predict(dtest)
mean_pred = (pred_label + pred_label_test)/2.
predictions[r] = mean_pred
강사에게 왜 묻지 않으시겠습니까? 이것은 실제로 스택 오버 플로우 –
에 대한 주제가 아닙니다. 그러면 더 관련성이 있습니까? – fourth