1

교육 데이터 세트가 20 개이며 모델 교육에 사용해야하는 요소가 모두 있습니다. 테스트 데이터 세트를 적용해야합니다. 내 예측 및 제출 모델.열차 및 테스트 데이터의 다른 요인 레벨 처리

나는 초기 데이터 탐색을하고 있었고 호기심을 벗어나서 모든 범주 형 변수를 다루기 때문에 훈련 데이터 및 테스트 데이터 수준을 확인했다. 나의 당황 스러움에 따라 대부분의 범주 (변수)는 교육 수준이 다르며 테스트 데이터 세트. 예를 들어

다음
table(train$cap.shape) #training data column levels 
    b c f k x 
196 4 2356 828 2300 

table(test$cap.shape) #test data 

b f s x 
256 796 32 1356 

나는 카테고리의 추가 테스트 데이터 세트에서, 나는 것을 병합 생각 나는 이러한 경우를 처리 할 수있는 방법, 교육 C의 추가 범주가 매우 낮은, 그래서이 다른 요소와 배분하는 방법은 종속 변수를 사용하는 방법에 따라 달라 지지만 테스트에서 추가 수준을 처리하는 방법에 대해 고민하고 있습니다.

추가 예이 열에

table(train$odor) #train 
    c f m n p s y 
189 2155 36 2150 2 576 576 

table(test$odor) #test 

    a c f l n p 
400 3 5 400 1378 254 

우리는 테스트 데이터 세트의 경우 상당한 수의 시험 2 추가 레벨을 갖는다. 어떻게 이러한 불일치를 처리 할 수 ​​있습니까? 여기

table(train$sColour) #train 
    b h k n o r w y 
    48 1627 700 753 48 72 2388 48 

    table(test$sColour) #test 
    h k n u 
    5 1172 1215 48 

우리가 처음 그냥 훈련 세트 모델을 구축하고 중요한 예측 인자를 찾은 다음 요인 수준에 대해 걱정해야 유

의 추가 요소가?

+0

@Tchotchke 테스트에서 추가 요인을 삭제하고 싶지는 않지만 이러한 추가 요인을 어떻게 처리하여 모델에서 오류가 발생하지 않는지 알고 싶습니다. –

+1

@Tchotchke 테스트 및 교육 데이터를 결합하고 모든 열을 리팩터링 한 다음 데이터를 다시 분할해야 할 수도 있습니까? –

+1

당신 말이 맞아요, 그건 내 오해입니다. 당신이 제안하는 것이 의미가 있습니다. 제가 여러분의 데이터에 관해 갖는 더 큰 질문은 테스트와 열차 세트가 (적어도 이러한 요소를 따라) 매우 다른 배포판을 갖고있는 것처럼 보이기 때문에 어려운 모델링 작업이 될 가능성이 높습니다. – Tchotchke

답변

1

서로 다른 기능 집합을 갖는 것이 기계 학습의 기본 교훈을 위반하는 것입니다. 교육 및 테스트 데이터는 동일한 데이터 공간을 나타내야합니다. 이것들은 그렇지 않다. 각 쌍에는 피쳐 (치수)의 공통 커널이 있지만 동일한 모델에서 사용하려면 공통 피쳐로만 각 세트를 축소하거나 피쳐의 통합으로 확장해야합니다. 추가 기능에 대한 의미 상 Null 값을 사용합니다.

+3

OP에는 여러 가지 기능이 있지만 카테고리 또는 요소 기능의 값이 다르다고 나는 생각하지 않습니다. 그것이 사실이라면, 나는 이것이 중복 된 것이라고 생각한다. (나는 그 질문에 대해 주석을 달았 기 때문에) 문제는 나의 응답에 의해 해결된다. – Tchotchke