기계 학습 알고리즘을 적용하기 전에 데이터 세트에서 누락 된 값을 처리하는 방법 ??파이썬에서 기계 학습을 위해 누락 된 NaN을 처리하는 방법
나는 누락 된 NAN 값을 떨어 뜨리는 것이 현명하지 않다는 것을 알아 차렸다. 저는 보통 팬더를 사용하여 보간 (계산)을하고 일종의 데이터로 채우고 분류 정확도를 향상 시키지만 최선의 방법은 아닙니다.
여기는 매우 중요한 질문입니다. 데이터 세트에서 누락 된 값을 처리하는 가장 좋은 방법은 무엇입니까?
예를 들어이 데이터 세트를 보면 30 %만이 원래 데이터를 가지고 있습니다.
Int64Index: 7049 entries, 0 to 7048
Data columns (total 31 columns):
left_eye_center_x 7039 non-null float64
left_eye_center_y 7039 non-null float64
right_eye_center_x 7036 non-null float64
right_eye_center_y 7036 non-null float64
left_eye_inner_corner_x 2271 non-null float64
left_eye_inner_corner_y 2271 non-null float64
left_eye_outer_corner_x 2267 non-null float64
left_eye_outer_corner_y 2267 non-null float64
right_eye_inner_corner_x 2268 non-null float64
right_eye_inner_corner_y 2268 non-null float64
right_eye_outer_corner_x 2268 non-null float64
right_eye_outer_corner_y 2268 non-null float64
left_eyebrow_inner_end_x 2270 non-null float64
left_eyebrow_inner_end_y 2270 non-null float64
left_eyebrow_outer_end_x 2225 non-null float64
left_eyebrow_outer_end_y 2225 non-null float64
right_eyebrow_inner_end_x 2270 non-null float64
right_eyebrow_inner_end_y 2270 non-null float64
right_eyebrow_outer_end_x 2236 non-null float64
right_eyebrow_outer_end_y 2236 non-null float64
nose_tip_x 7049 non-null float64
nose_tip_y 7049 non-null float64
mouth_left_corner_x 2269 non-null float64
mouth_left_corner_y 2269 non-null float64
mouth_right_corner_x 2270 non-null float64
mouth_right_corner_y 2270 non-null float64
mouth_center_top_lip_x 2275 non-null float64
mouth_center_top_lip_y 2275 non-null float64
mouth_center_bottom_lip_x 7016 non-null float64
mouth_center_bottom_lip_y 7016 non-null float64
Image 7049 non-null object
"데이터 세트에서 누락 된 값을 처리하는 가장 좋은 방법은 무엇입니까?" 이 질문에 대한 대답은 상황에 따라 다르며 의견을 기반으로한다고 주장 할 것이다. – CoryKramer
누락 된 값이있는 행은 삭제할 수 있지만 성능이 저하되거나 누락 된 값을 예측에 영향을주지 않는 값으로 설정할 수 있지만 누락 된 값이 많으면 실제 모델에 비뚤어 질 수 있습니다. . 평균/중간 값을 사용할 수 있지만 모든 접근법의 성능을 측정하고 무엇이 가장 좋은지를 확인해야합니다. 이는 해당 기능에 어떤 가치가 있는지 그리고 어떤 모델을 선별 했느냐에 달려 있습니다 – EdChum