교육 데이터 세트가 20 개이며 모델 교육에 사용해야하는 요소가 모두 있습니다. 테스트 데이터 세트를 적용해야합니다. 내 예측 및 제출 모델.열차 및 테스트 데이터의 다른 요인 레벨 처리
나는 초기 데이터 탐색을하고 있었고 호기심을 벗어나서 모든 범주 형 변수를 다루기 때문에 훈련 데이터 및 테스트 데이터 수준을 확인했다. 나의 당황 스러움에 따라 대부분의 범주 (변수)는 교육 수준이 다르며 테스트 데이터 세트. 예를 들어
다음table(train$cap.shape) #training data column levels
b c f k x
196 4 2356 828 2300
table(test$cap.shape) #test data
b f s x
256 796 32 1356
나는 카테고리의 추가 테스트 데이터 세트에서, 나는 것을 병합 생각 나는 이러한 경우를 처리 할 수있는 방법, 교육 C의 추가 범주가 매우 낮은, 그래서이 다른 요소와 배분하는 방법은 종속 변수를 사용하는 방법에 따라 달라 지지만 테스트에서 추가 수준을 처리하는 방법에 대해 고민하고 있습니다.
추가 예이 열에
table(train$odor) #train
c f m n p s y
189 2155 36 2150 2 576 576
table(test$odor) #test
a c f l n p
400 3 5 400 1378 254
우리는 테스트 데이터 세트의 경우 상당한 수의 시험 2 추가 레벨을 갖는다. 어떻게 이러한 불일치를 처리 할 수 있습니까? 여기
table(train$sColour) #train
b h k n o r w y
48 1627 700 753 48 72 2388 48
table(test$sColour) #test
h k n u
5 1172 1215 48
우리가 처음 그냥 훈련 세트 모델을 구축하고 중요한 예측 인자를 찾은 다음 요인 수준에 대해 걱정해야 유
의 추가 요소가?
@Tchotchke 테스트에서 추가 요인을 삭제하고 싶지는 않지만 이러한 추가 요인을 어떻게 처리하여 모델에서 오류가 발생하지 않는지 알고 싶습니다. –
@Tchotchke 테스트 및 교육 데이터를 결합하고 모든 열을 리팩터링 한 다음 데이터를 다시 분할해야 할 수도 있습니까? –
당신 말이 맞아요, 그건 내 오해입니다. 당신이 제안하는 것이 의미가 있습니다. 제가 여러분의 데이터에 관해 갖는 더 큰 질문은 테스트와 열차 세트가 (적어도 이러한 요소를 따라) 매우 다른 배포판을 갖고있는 것처럼 보이기 때문에 어려운 모델링 작업이 될 가능성이 높습니다. – Tchotchke