2017-09-10 18 views
0

이것은 기본적인 질문처럼 들리 겠지만 Training Set and Test와 관련하여 큰 혼란을 겪고 있습니다.교육 데이터 vs. 테스트 데이터

분류와 같은 감독 학습 기술을 사용하여 일반적인 예측을하는 경우 데이터 집합을 교육 및 테스트 집합의 두 부분으로 나누는 것이 좋습니다. 교육 세트에는 예측 변수가 있으며 데이터 세트에서 모델을 교육하고 사물을 "예측"합니다.

예를 들어 보겠습니다. 우리는 은행에서 대출 불량자를 예측할 것이며, 우리는 불량 가입자 및 불충실 요인을 예측하는 독일 신용 데이터 세트를 보유하고 있지만 고객이 불량 가입자인지 또는 불량 가입자인지 여부를 나타내는 정의 열이 이미 있습니다.

저는 타이타닉 생존 데이터와 같은 UNSEEN 데이터에 대한 예측 논리를 이해합니다. 그러나 독일 신용 대출 데이터와 같은 클래스가 이미 언급 된 예측 지점은 무엇입니까?

답변

1

당신이 말했듯이, 아이디어는 UNSEEN 데이터를 예측할 수있는 모델을 제시하는 것입니다. 테스트 데이터는 교육 데이터를 통해 생성 된 모델의 성능을 측정하는 데만 사용됩니다. 당신이오고있는 모델이 "overfit"의 훈련 데이터가 아닌지 확인하고 싶습니다. 이것이 테스트 데이터가 중요한 이유입니다. 결국 모델을 사용하여 새 대출자가 채무 불이행 여부를 예측하여 대출 신청 승인 여부를 결정하게됩니다.

0

기본값을 포함하는 이유는 모델이 예상대로 작동하고 올바른 결과를 예측할 수 있도록하기 위해서입니다. 그렇지 않으면 누구나 자신의 모델이 예상대로 작동하고 있다고 확신 할 수있는 방법이 없습니다.

0

모델 교육의 궁극적 인 목적은 UNSEEN 데이터에 적용하는 것입니다.

독일 신용 대출 사례에서도 하루가 끝날 때 눈에 보이지 않는 신용 응용 프로그램이 기본값인지 아닌지 예측할 수있는 훈련 된 모델을 갖게됩니다. 그리고 모델을 훈련하는 데 사용했던 것과 동일한 형식으로 새 신용 데이터를 나타낼 수있는 한 새로운 신용 애플리케이션을 위해 미래에이를 사용할 수 있어야합니다.

한편 테스트 세트는 모델이 얼마나 좋은지 평가하는 데 사용되는 형식주의에 불과합니다. 향후 신용 애플리케이션에서 모델의 정확도를 정확히 알 수는 없지만, 훈련 데이터의 일부를 절약하고 만 사용하면 만 사용하면 모델 성능을 확인할 수 있습니다 세워짐. 이것이 바로 테스트 세트 (또는보다 정확하게는 유효성 검사 세트)라고 부릅니다.