2017-05-21 14 views
1

저는 오믹 데이터 분석을 수행하고 있으며 훈련 및 테스트 세트 (80-20)로 나뉘어 진 269x600 데이터 세트가 있습니다. 예상 할 변수는 hippurate의 농도이며 4 가지 값 (0, 75, 150, 300)을 가지고 있지만 회귀 분석을하고 있습니다. XGBoost 및 Random Forest가 학습 데이터 중심에있을 때 테스트 세트에 대한 지속적인 예측을 유도합니다.

은 내가 최적의 하이퍼 파라미터를 선택 교차 검증을했다을 설정 중심의 교육에 caret 인프라를 사용하여 임의 숲과 XGBoost 모두를 달렸다. 문제는 선택한 모델을 사용하여 테스트 세트를 예측할 때 (거의) 상수 예측을 얻었습니다. 즉, 전체 테스트 세트에 대해 약 269의 값입니다.

그러나 같은 모델을 실행했지만중심이 맞지 않는 교육 세트를 사용하면 예상치가 매우 우수하며 이전 모델보다 훨씬 우수합니다.

제 질문은 다음과 같습니다. 왜 교육 데이터를 중심으로 만 배치했는지 두 모델 모두에서 이상한 결과가 나타납니다.

나는이 모델이 작동하는 등의 전처리가 필요하지 않습니다 알고 있지만 결과가 변경 왜 난 여기가 작동하지 않는 이유는 우리가 사전에 처리하면 이해하지 않는 많은 우리 센터에서만 데이터 ...

+0

을 추정하지 않는 것이 증거를 얻을 것입니다 훈련 세트에 사용됩니까? –

+0

@MarcoSandri 와우, 내가 어떻게 생각하지 않았어? 테스트 세트를 중심으로했을 때 매우 효과적이었습니다. 그러나 나는 아직도 문제를 이해하지 못한다. 나는 * (단계별) 선형 회귀 분석 *, * 탄성 망 *, * (희소 또는 직각) 부분 최소 제곱과 같은 다른 모델을 중심으로 테스트 세트를 배치하지 않았다. , * PCR * 또는 * ICR *, 그리고 그것은 받아 들일만한 결과를 나타냈다. 그러나 물론 결과는 센터링 된 테스트 세트에서 예측할 때이 모델에서도 변경됩니다 ..... 테스트 세트에 비해 입력 기능에 대한 간단한 위치 이동이 큰 영향을 줄 수 있다고 생각하지 않았습니다. –

답변

2

Train vs test를 이동하여 무엇을하고 있는지 생각해보십시오.

테스트 세트의 모든 샘플이 교육 데이터의 범위를 벗어날 수 있습니다.

따라서 테스트 데이터의 모든 기능은 교육 데이터와 비교하여 모두 동일하거나 (실제로 높거나 매우 낮습니다) 교육받은 모델의 동일한 터미널 노드로 끝납니다.

그리하여 그들은 모두 같은 예측

이 트리 모델 당신이 같은 센터링 매개 변수를 사용하여 테스트 세트 변수를 중심나요 잘

require(xgboost) 
X <- matrix(rnorm(10000, mean = 10),nrow = 100) 
y <- sample(c(0,1) , 100, replace = T) 

bst1 <- xgboost(data = X, label = y, nrounds = 20) 

# gonna scale test and not train 
# test predictions are the same 
p <- predict( bst1, newdata = scale(X)) 
> p 
    [1] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
    [9] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[17] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[25] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[33] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[41] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[49] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[57] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[65] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[73] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[81] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[89] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 
[97] 0.3643985 0.3643985 0.3643985 0.3643985