x 속성 및 y 레코드가있는 데이터 세트가 있습니다. 누락 된 값이 최대 x-1 인 입력 레코드가 있으면 나머지 누락 값 중 하나를 합리적으로 근사치로 계산하려면 어떻게해야합니까?주어진 데이터 세트에 대한 대략적인 누락 값
그래서 아래의 예에서, 입력 레코드 (나머지 누락, 특성 2 및 6) 두 개의 값을 가지고 있으며, I는 속성 제
I 값을 근사하고자 누락 된 값은 '대체 (imputation)'를 통해 처리되지만 일반적으로 전처리 데이터 세트에 관한 예를 찾습니다. 나는 회귀 분석을 사용하여 누락 된 값을 결정하고 이상적으로는 한 번 생성되는 모델을 사용합니다 (가능한 경우 매번 하나씩 생성하지 않아도 됨).
속성 8. 모든 누락 된 값에 대한 세계 평균 (8.4)을 사용하는 것보다 아마도 더 좋다. 이미지를 잘라 붙여 넣을 수는 없습니다. – G5W