이것은 기본적인 질문처럼 들리 겠지만 Training Set and Test와 관련하여 큰 혼란을 겪고 있습니다.교육 데이터 vs. 테스트 데이터
분류와 같은 감독 학습 기술을 사용하여 일반적인 예측을하는 경우 데이터 집합을 교육 및 테스트 집합의 두 부분으로 나누는 것이 좋습니다. 교육 세트에는 예측 변수가 있으며 데이터 세트에서 모델을 교육하고 사물을 "예측"합니다.
예를 들어 보겠습니다. 우리는 은행에서 대출 불량자를 예측할 것이며, 우리는 불량 가입자 및 불충실 요인을 예측하는 독일 신용 데이터 세트를 보유하고 있지만 고객이 불량 가입자인지 또는 불량 가입자인지 여부를 나타내는 정의 열이 이미 있습니다.
저는 타이타닉 생존 데이터와 같은 UNSEEN 데이터에 대한 예측 논리를 이해합니다. 그러나 독일 신용 대출 데이터와 같은 클래스가 이미 언급 된 예측 지점은 무엇입니까?