0

최근에 Deep Learning의 경우 데이터를 추가하면 많은 정형화가 필요하지 않은 것으로 설명하는 동영상을 시청했습니다.샘플에 대한 정규화와 기계 학습에 대한 전체 데이터 세트

이 말은 예를 들어 랜덤 포레스트와 같은 "일반적인"기계 학습 알고리즘을 유지합니까? 그렇다면 알고리즘에 대한 최상의 하이퍼 파라미터를 검색 할 때 이론적으로 입력 데이터 세트 (물론 교차 유효성 검사 세트 등으로 나누어 짐)를 가지고있는만큼 많은 데이터를 가져야합니다. 그것. 이것은 물론 하이퍼 - 패러미터의 모든 조합에 대해 훈련을 거쳐야하는 X 교차 검증 세트를 가지고 있기 때문에 더 긴 훈련 시간을 의미합니다.

기본적으로 데이터 세트의 적당한 크기 샘플에서 발견 된 매개 변수가 전체 데이터 집합에 사용되는 "최적의"매개 변수라고 가정하는 것이 맞습니까? 그렇지 않습니다.

답변

1

통계학 자의 관점에서 말하자면, 그것은 견적 도구의 품질에 따라 달라집니다. 편파성이 낮고 분산이 낮 으면 샘플은 괜찮을 것입니다. 편차가 높으면 가능한 모든 데이터를 사용하는 것이 좋습니다.