2016-11-17 4 views
0

기능 선택에서 교차 유효성 검사를 수행 할 때 잘 알려진 Intro to Stat Learning 과정에서이 video을보고있었습니다.교차 유효성 검사는 기능에서 분류 선택입니다.

교수는 모델 피팅과 피쳐 선택을하기 전에 폴드를 형성해야한다고 말했다. 그들은 또한 각 분할에서 우리는 다른 "최상의 예측 변수"로 끝날 수도 있다고 말했습니다.

제 질문은 어떻게하면 미래의 사용을위한 전반적인 최선의 예측자를 결정할 수 있습니까? 즉, 새로운 데이터 집합이있는 경우 사용해야하는 예측자를 어떻게 알 수 있습니까?

+0

안녕하세요! 이 질문은 프로그래밍에 관한 것이 아니므로이 사이트에 적합하지 않습니다. 당신은 [Cross Validated] (http://stats.stackexchange.com)에서 질문하는 것이 더 나을 것입니다. – Tchotchke

답변

0

초보자에게 좋은 질문입니다. 질문에 대한 답은 나중에 사용할 수 있도록 동일한 기능 세트를 사용한다는 것입니다. 예, 선택한 기능이 시간에 따라 변경 될 수 있다는 절충안이 있습니다. 하지만 보통은 이전에 선택한 기능을 사용합니다. 하지만 중요한 점은 기능 선택에 사용 된 초기 데이터가 문제의 거의 모든 경우를 반영 할 수 있도록 충분한 수의 샘플로 충분해야한다는 것입니다.이 경우 일반적으로 선택한 기능은 새 테스트 데이터에 대해 그만큼 변경되지 않습니다.