나는 훈련과 테스트 데이터 세트를 따로 받았다. 두 데이터 세트는 정확히 동일한 구조 (동일한 열/피처)를 갖습니다. 학습 데이터 세트에는 모든 행에 누락 값이있는 일부 열이 있습니다. 예측 모델을 만들려는 경우 정보를 제공하지 않아도 단순히 해당 열을 삭제할 수 있습니다. 그러나 문제는 동일한 열에는 테스트 데이터 세트에 일부 값이 있다는 것입니다. 따라서 훈련 데이터 세트에서 해당 열을 제거하면 테스트 데이터 세트에서도 해당 열을 제거해야합니다. 나는 그렇게 할 수는 있지만 문제는 그러한 열의 수가 꽤 크다는 것입니다 (총 250 열 중에서 약 150 개). 나는 그 열을 제거하는 것을 매우 주저합니다. 이러한 열을 보존하기위한 아이디어 나 솔루션이 도움이 될 것입니다. 감사!교육 데이터에 누락 된 값이 모두있는 열이 있지만 테스트 데이터의 동일한 열에는 이러한 값을 처리하는 방법이 있습니까?
-1
A
답변
0
기차/테스트 데이터가 적절하게 분할하는 경우, 다음 중 하나에 쓸모없는 열이 대안으로 다른
에서 쓸모없는, 당신은 데이터를
짧은 대답 누락 보간 시도 할 수 있습니다. 예. 이러한 열은 어떻게 추론하는 데 사용될 수 있는지를 배우기 위해 아무것도 제공하지 않습니다. 이것이 주제와 관련이 없으므로 https://stats.stackexchange.com에 게시하십시오. –