1

사람들의 목록이 있으며 사람 X과 같은 사람을 찾고 싶다고합시다.부분적으로 알려지지 않은 벡터의 가장 가까운 이웃

특징 벡터에는 [weight, height, age]의 3 개 항목이 있으며 우리 목록에는 3 명이 있습니다. 우리는 사람 C의 높이를 모른다. C.

A: [70kg, 170cm, 60y] 
B: [60kg, 169cm, 50y] 
C: [60kg, ?,  50y] 

은 무엇 사람을 찾을 수있는 가장 좋은 방법이 될 것이다 사람에 가장 가까운?

내 생각 엔

는의 높이에 대한 평균 값을 계산하자, 대신 알 수없는 값을 사용합니다.

따라서 170cm은 높이의 평균값이며, 사람 C[60kg, ~170cm, 50y]으로 다시 정의한다고 가정 해 봅시다.

이제 A에 가장 가까운 사람들을 찾을 수 있습니다. A, C, B이됩니다.

문제는 이제, 문제는 우리가 알려진 169cm보다 B 전에 짐작 ~170cmC을 넣어 것입니다.

다소 잘못되었습니다. 우리 인간은 기계보다 더 똑똑하며, C이 정확히 170cm이 될 가능성이 거의 없음을 알고 있습니다. 따라서 B를 169cm과 함께 넣는 것이 C보다 먼저 입력하는 것이 좋습니다.

하지만 어떻게 벌칙을 계산할 수 있습니까? (간단히 경험적 알고리즘이 바람직 함) 알 수없는 값으로 벡터를 처벌해야합니까? 그리고 얼마나 많이 (어쩌면 세트의 두 사람의 높이 사이의 평균 차이를 계산할 것인가?)?

그리고 특징 벡터의 차원이 N이며이 K 알려진 항목과 알 수없는 U (K + U = N)을 가질 때 어떻게 penalisation은 일반적인 경우처럼 보일 것?

답변

1

이 특정 예에서 평균을 취하는 대신 누락 된 값을 채우기 위해 선형 회귀를 사용하는 것이 더 좋을까요? 이 방법을 사용하면 추측 된 가치에 더 많은 확신을 가질 수 있으며 벌칙이 필요하지 않을 수 있습니다.

하지만 벌칙을 원한다면, 필자는 누락되지 않은 기능의 비율을 취할 생각이 있습니다. 이 예에서는 총 3 가지 기능이 있습니다. C는 2 개의 기능 중 하나에 값을가집니다. 따라서 C에 대해 누락되지 않은 기능의 비율은 2/3입니다. 유사성 점수에 누락되지 않은 기능의 비율을 곱하여 유사성 점수를 조정하십시오. 예를 들어, A와 C 사이의 유사도가 0.9이면 조정 된 유사도는 0.9 * 2/3 = 0.6입니다. 반면에 B는 모든 특징에 대한 값을 가지며 비율은 1이 될 것이기 때문에 A와 B 사이의 유사성은 영향을받지 않습니다.

비율을 계산할 때 기능에 가중치를 지정할 수도 있습니다. 예를 들어, (weight, height, age)는 각각 가중치 (0.3, 0.4, 0.3)를 얻습니다. 그런 다음 높이 기능을 누락하면 (0.3 + 0.3) = 0.6의 가중치 비율이 적용됩니다. 우리는 체중과 나이보다 키가 더 중요하다고 생각하기 때문에 C가 벌점을받는 것을 볼 수 있습니다.

+0

비율이 좋은 아이디어! 감사! –

1

우리는 알려진 속성에 대한 데이터 포인트를 사용하여 학습 모델, 선형 회귀 또는 다중 레이어 퍼셉트론을 사용하여 알 수없는 속성을 학습 한 다음이 모델을 사용하여 알 수없는 속성을 채울 것을 제안합니다. 평균은 선형 모델의 특수한 경우입니다

1

데이터 Imputation에 관심이 있습니다.

이 문제를 해결하기위한 여러 가지 방법이있다, 난 그냥 몇 가지 나열하기 위하여려고하고있다 :

  • 평균/모드/중간 전가가 : 전가가 예상과 누락 된 값을 입력하는 방법입니다 사람. 목표는 누락 된 값을 추정하는 데 도움이되는 데이터 세트의 유효한 값에서 식별 할 수있는 알려진 관계를 사용하는 것입니다. Mean/Mode/Median 대체는 가장 빈번하게 사용되는 방법 중 하나입니다. 이는 주어진 속성에 대한 누락 된 데이터를 해당 변수의 알려진 모든 값의 평균 또는 중앙값 (정량적 속성) 또는 모드 (정 성적 속성)로 대체하는 것으로 구성됩니다. 이것은 일반화 된 사건과 유사한 사건의 대체물로 분류 될 수있다.

  • 예측 모델 : 예측 모델은 누락 된 데이터를 처리하는 정교한 방법 중 하나입니다. 여기서 누락 된 데이터를 대체 할 값을 예측하기위한 예측 모델을 만듭니다. 이 경우 데이터 세트를 두 세트로 나눕니다. 하나는 변수에 누락 값이없고 다른 하나는 누락 값이 있습니다. 첫 번째 데이터 세트는 모델의 학습 데이터 세트가되고 누락 값이있는 두 번째 데이터 세트는 테스트 데이터 세트이며 누락 값이있는 변수는 목표 변수로 처리됩니다. 다음으로, 학습 데이터 세트의 다른 속성을 기반으로 목표 변수를 예측하고 테스트 데이터 세트의 누락 된 값을 채우는 모델을 작성합니다.

  • KNN (K 최근 접) 전가 : 전가 방법에있어서, 속성의 값은 누락 값을 가진 누락되는 특성에 가장 유사한 특성 지정된 번호로 전가된다. 두 속성의 유사성은 거리 함수를 사용하여 결정됩니다.

  • 선형 회귀 : 스칼라 변수 따라 Y 및 하나 이상의 설명 변수 (또는 독립 변수들) 간의 관계를 모델링하는 선형 방식은 예측에서 X.를 붙이고, 선형 회귀 예측 모델에 맞게 사용될 수있다 y 값과 X 값의 관측 된 데이터 세트로 변환합니다. 그런 모델을 개발 한 후에, 부가 값인 y의 값없이 X의 추가 값이 주어진다면, 적합 모델은 y의 값을 예측하는데 사용될 수있다. 원하는 경우 example을 확인하십시오.