2017-01-12 4 views
-1

x 속성 및 y 레코드가있는 데이터 세트가 있습니다. 누락 된 값이 최대 x-1 인 입력 레코드가 있으면 나머지 누락 값 중 하나를 합리적으로 근사치로 계산하려면 어떻게해야합니까?주어진 데이터 세트에 대한 대략적인 누락 값

그래서 아래의 예에서, 입력 레코드 (나머지 누락, 특성 2 및 6) 두 개의 값을 가지고 있으며, I는 속성 제

Data table with input I want to classify

I 값을 근사하고자 누락 된 값은 '대체 (imputation)'를 통해 처리되지만 일반적으로 전처리 데이터 세트에 관한 예를 찾습니다. 나는 회귀 분석을 사용하여 누락 된 값을 결정하고 이상적으로는 한 번 생성되는 모델을 사용합니다 (가능한 경우 매번 하나씩 생성하지 않아도 됨).

+1

속성 8. 모든 누락 된 값에 대한 세계 평균 (8.4)을 사용하는 것보다 아마도 더 좋다. 이미지를 잘라 붙여 넣을 수는 없습니다. – G5W

답변

0

속성이 존재하거나 부재하는 가능성의 수는 모든 경우를 포괄하는 선형 회귀와 같은 모델의 집합을 유지할 수 없다는 것을 비현실적으로 만듭니다. 나에게 실용적으로 보이는 한 모델은 정확히 어떤 모델도 만들지 않은 모델입니다 - 가장 가까운 이웃 회귀. 내 제안은 사용 가능한 모든 특성을 사용하고 교육 포인트까지의 거리를 계산하는 것입니다. 가장 가까운 이웃의 값 또는 가장 가까운 이웃의 (가중치가있는) 평균을 사용할 수 있습니다. 귀하의 예에서는 거리를 계산할 때 속성 2와 6 만 사용합니다. 가장 가까운 점은 마지막 점 (3.966469, 8.911591)입니다. 이 점은 속성 8에 대해 6.014256의 값을 가지므로 새 점에 대한 속성 8의 추정치입니다.

또는 가장 가까운 세 개의 이웃을 사용할 수 있습니다. 그것들은 17, 8, 12 포인트입니다. 따라서 해당 포인트에 대한 속성 8 값의 평균 또는 가중 평균을 사용할 수 있습니다. 때때로 사람들은 1/dist의 가중치를 사용합니다. 물론 세 이웃은 하나의 예일뿐입니다. 다른 k를 골라 낼 수 있습니다.

이 대신 이미지의 텍스트로 샘플 데이터를 제공하는 경우 도움이 될 것

+0

답변 해 주셔서 감사합니다. k- 근사 알고리즘을 사용하면 훈련 세트의 범위 밖에서 작동하지 않을 것입니까? 1 있었다면 두 속성 간의 관계는 1 예 : (4,4) (5,5) (5,5) (6,6) (7,7) (7 7) (8,8) 및 I는 다음과 같은 입력했다 : (2, 3 개 가까운 이웃 사용 는 4.67 (의 예측값 X 값을 의미 X)를, 1/DIST, 4.57 의해 가중 경우). –

+0

당신이 묘사 한 상황이 의심스러운 결과를 가져올 것이라는 것은 당연 하겠지만 그것은 모든 방법에서 그렇습니다. 귀하의 예에서는 데이터 모델 (라인)을 가정한다고 생각합니다. 모델을 알고 매개 변수를 추정하기 만하면 (예를 들면) 더 잘할 수 있습니다. 그러나 함수가 2 차 함수이고 측정에 오류가 있다고 가정합니다. 외삽 법이 제대로 수행되지 않습니다. 그리고 함수의 근본적인 형태를 모르고 훈련 데이터에 맞는 것을 사용했다면 어떨까요? 다시 말하지만 외삽 법은 위험합니다. – G5W