(ML에서 멍청한 녀석) 내 scikit-learn SVMLinear 분류 자의 성능을 테스트하고 싶습니다. 내 기차 세트는 실제 인구와 다른 클래스 분포를 가지고 있지만, 내 테스트 세트는 대표이며 실제 인구와 같이 분포합니다.클래스 변수가 실제 모집단과 다른 분포를 갖는 열차 집합의 유효성을 확인하십시오
클래스 가중치 매개 변수가 있음을 눈치 챘습니다. 분류기에 실제 인구 분포를 제공하고 성능 향상에 도움이되는지 확인하려고합니다.
그러나 기차 세트 배포본이 다르기 때문에 내 유효성 검사 세트가 올바르게 표시됩니까? 유효성 검사에 대한 개선이 기대 되나요? 아니면 개선 사항을보기 위해 테스트 세트를 사용해야합니까? 그렇다면 테스트 세트를 사용하여 보정하는 규칙에 어긋나지 않아 테스트 세트 또는과 피팅을 태우는 결과를 낳을 수 있습니까?
필자는 기차 세트의 부트 스트랩 재 샘플링에 대해 생각해 보았습니다 : 일반 인구 집단과 동일한 배포를하고 내 모델을 교육하고 유효성을 검사하는 것입니다. 이것은 좋은 해결책입니까?
감사합니다.
멍청한 놈이 아니므로, ;-). 나는 당신의 아이디어가 옳다고 생각하며 이것이 어떻게 문제를 해결할 것인가입니다. 나는 단지 ML에 많은 것을 추가 할 것입니다. 많은 것들이 데이터 셋/알 고스 의존적이므로 여러분 만이 여러분의 질문에 대한 확실한 답을 찾을 수있을 것입니다. 물론 테스트 세트를 사용하면 알지도 못합니다. – elyase