이 같은 데이터를 구비하고 :R : NA가 아닌 경우 가장 가까운 이웃이라고 할 수 있습니까?
v1 = c(-1, 1, 420, 400, 400, 170, 420)
v2 = c(350, 460, 420, 400, 500, 170, 420)
v3 = c(350, 460, 420, 1, 500, 3, 1)
v4 = c(1, NA, 420, 1, NA, 170, 420)
v5 = c(350, 400, 400, 1, 1, 3, 300)
v6 = c(350, 400, NA, 500, 500, 170, 300)
v7 = c(7,400,200,7,500,170,7)
DF1= data.frame(v1, v2, v3, v4, v5, v6, v7)
테이블의 생성/DF는 다음과 같이
v1 v2 v3 v4 v5 v6 v7
1 -1 350 350 1 350 350 7
2 1 460 460 NA 400 400 400
3 420 420 420 420 400 NA 200
4 400 400 1 1 1 500 7
5 400 500 500 NA 1 500 500
6 170 170 3 170 3 170 170
7 420 420 1 420 300 300 7
3 개 자리 숫자는 사용 시간 (400 = 40H) 및 한 자리는 상태이다 아르 고용의. 데이터의 문제점은 월별 정보 (v1-v7은 몇 달)를 목표로하고 있지만 1 년에 한 번만 설문 조사를합니다. 그래서 나는 그것을 국가에 놓았고 지금은 채우기 위해 같은 공백이 있습니다.
상태 "-1", "NA", "1"및 "3"을 가장 가까운 이웃으로 대체하려고합니다 (계산이없고 다음 값이 "50"보다 높음). 교체해야 할 케이스의 왼쪽/변수 왼쪽에있는 값. 이 같아야 끝에
:
v1 v2 v3 v4 v5 v6 v7
1 350 350 350 350 350 350 7
2 460 460 460 460 400 400 400
3 420 420 420 420 400 NA 200
4 400 400 400 400 500 500 7
5 400 500 500 500 500 500 500
6 170 170 170 170 170 170 170
7 420 420 420 420 300 300 7
주 라인 (4) 여기서, 상기 오른쪽 발 (50) 위의 다음 값과 왼쪽의 값 및 하나의 치환은 "1"의 2 - 내가 "왼쪽의 우선 순위"로 의미했던 것.
지금까지 나는 impute-package의 임의의 전가에 대한 경험이 있었지만 knn-package를 보았습니다.하지만 이해할 때 NA와 만 작동합니다. 맞습니까? .CSV에 수출하고 수동으로 해결하는 것은 데려다 때문에 10 + 시간 (11 개 데이터 세트를 100 ~ 200 개 행 각각) 사전에
감사
나는 어떤 힌트 감사!
결과 (행 3)에 'NA'가있는 이유는 무엇입니까 ?? – jlhoward
DF1 [ "3", "v6"]은 400이어야합니까? – Emer
또한 4 번 행은 규칙을 따르지 않는 것 같습니다. – jlhoward