5

특정 유형의 객체 (약 2240 개의 부정적인 객체 예제와 약 90 개의 긍정적 인 객체 예제 만)를 인식하는 데이터 세트를 준비했습니다. 그러나 데이터 세트의 각 객체에 대해 10 개의 피쳐를 계산 한 후에는 고유 한 트레이닝 인스턴스의 수가 각각 약 130 및 30으로 떨어졌습니다.다른 개체를 나타내는 동일한 교육 예제를 유지/삭제해야합니까?

동일한 교육 인스턴스가 실제로 서로 다른 객체를 나타내므로이 복제는 관련 정보 (예 : 객체 피쳐 값의 분포)를 보유하고 있다고 말할 수 있습니까? 이는 여러면에서 유용 할 수 있습니다.

+0

신경망이 기능 이외의 정보를 수신합니까? 그리고 피쳐 값은 실제로 동일하거나 매우 비슷합니까? – seaotternerd

+0

A1 : 아니요. 다른 정보가 없습니다. A2 : 특성 값이 동일합니다. –

답변

10

중복을 생략하면 각 개별 개체의 기본 속도가 왜곡됩니다. 교육 자료가 실세계의 대표 표본이라면, 약간 다른 세계 (기본 속도가 다른 것)에 대한 훈련이 될 것이기 때문에 훈련 데이터가 실제 세계의 대표 표본이라면, 그 표본은 필요하지 않습니다.

요점을 명확히하기 위해 두 개의 별개의 개체 만있는 시나리오를 고려해보십시오. 원래 데이터에는 99 개의 객체 A와 1 개의 객체 B가 포함되어 있습니다. 중복 객체를 제거한 후에는 객체 1 개와 객체 B가 하나씩 있습니다. 중복되지 않은 데이터에 대해 학습 된 분류 기준은 원래 데이터에 대해 학습 된 분류 기준과 크게 다를 것입니다.

제 조언은 데이터에 중복 된 것을 남기는 것입니다.

+0

답변 해 주셔서 감사합니다. 이 문제에 대한 자세한 설명을 제공하는 참고 자료를 제안 해주십시오. –

+0

교육 데이터 준비에는 몇 가지 제한이 있습니다. 즉, 교육 데이터가 반드시 실제 세계의 대표 샘플은 아님을 의미합니다. 또한 중복 된 교육 인스턴스를 유지하면 시험 인스턴스뿐만 아니라 교육 하위 집합에도 동일한 인스턴스가 존재할 수 있으므로 상호 유효성 평가 정확도에 영향을 미칩니다. –

+0

마지막 질문 :)이 수준의 불균형으로 데이터를 중복 제거하기 전이나 후에 오버 샘플링 기술을 사용해야합니까? –