그
Train vs test를 이동하여 무엇을하고 있는지 생각해보십시오.
테스트 세트의 모든 샘플이 교육 데이터의 범위를 벗어날 수 있습니다.
따라서 테스트 데이터의 모든 기능은 교육 데이터와 비교하여 모두 동일하거나 (실제로 높거나 매우 낮습니다) 교육받은 모델의 동일한 터미널 노드로 끝납니다.
그리하여 그들은 모두 같은 예측
이 트리 모델 당신이 같은 센터링 매개 변수를 사용하여 테스트 세트 변수를 중심나요 잘
require(xgboost)
X <- matrix(rnorm(10000, mean = 10),nrow = 100)
y <- sample(c(0,1) , 100, replace = T)
bst1 <- xgboost(data = X, label = y, nrounds = 20)
# gonna scale test and not train
# test predictions are the same
p <- predict( bst1, newdata = scale(X))
> p
[1] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[9] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[17] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[25] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[33] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[41] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[49] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[57] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[65] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[73] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[81] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[89] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[97] 0.3643985 0.3643985 0.3643985 0.3643985
을 추정하지 않는 것이 증거를 얻을 것입니다 훈련 세트에 사용됩니까? –
@MarcoSandri 와우, 내가 어떻게 생각하지 않았어? 테스트 세트를 중심으로했을 때 매우 효과적이었습니다. 그러나 나는 아직도 문제를 이해하지 못한다. 나는 * (단계별) 선형 회귀 분석 *, * 탄성 망 *, * (희소 또는 직각) 부분 최소 제곱과 같은 다른 모델을 중심으로 테스트 세트를 배치하지 않았다. , * PCR * 또는 * ICR *, 그리고 그것은 받아 들일만한 결과를 나타냈다. 그러나 물론 결과는 센터링 된 테스트 세트에서 예측할 때이 모델에서도 변경됩니다 ..... 테스트 세트에 비해 입력 기능에 대한 간단한 위치 이동이 큰 영향을 줄 수 있다고 생각하지 않았습니다. –