나는 하프 스파 스 매트릭스를 가지고 있습니다. 모든 세포의 절반은 공란 (na)이므로 '마우스'를 돌리려고 할 때 모든 세포에서 작용하려고합니다. 나는 단지 부분 집합에만 관심이있다.'R', 'mice', 변수 imputation이 누락되었습니다. - 희소 매트릭스에서 하나의 열만 수행하는 방법
질문 : 다음 코드에서 "마우스"는 처음 두 열에서만 작동하게합니까? 이전 행의 내용이 현재 행의 패치 홀을 도울 수 있도록 행 지연이나 행 리드를 사용하여이를 수행 할 수있는 명확한 방법이 있습니까? 내가 답을 보았다
set.seed(1)
#domain
x <- seq(from=0,to=10,length.out=1000)
#ranges
y <- sin(x) +sin(x/2) + rnorm(n = length(x))
y2 <- sin(x) +sin(x/2) + rnorm(n = length(x))
#kill 50% of cells
idx_na1 <- sample(x=1:length(x),size = length(x)/2)
y[idx_na1] <- NA
#kill more cells
idx_na2 <- sample(x=1:length(x),size = length(x)/2)
y2[idx_na2] <- NA
#assemble base data
my_data <- data.frame(x,y,y2)
#make the rest of the data
for (i in 3:50){
my_data[,i] <- rnorm(n = length(x))
idx_na2 <- sample(x=1:length(x),size = length(x)/2)
my_data[idx_na2,i] <- NA
}
#imputation
est <- mice(my_data)
data2 <- complete(est)
str(data2[,1:3])
장소 :
- 도움말 문서 (link) 물론
- 구글 ...
- https://stats.stackexchange.com/questions/99334/fast-missing-data-imputation-in-r-for-big-data-that-is-more-sophisticated-than-s
많은 가치 소멸 방법은 모든 변수의 공동 분포를 추정하여 작동하므로 모든 값의 공동 분포를 더 잘 예측하기 위해 모든 열의 누락 값을 반복적으로 채 웁니다. 모든 항목에 대해 대체 작업을 수행하는 것이 좋습니다. 귀속 된 값을 삭제하려면 누락 된 값의 데이터 프레임을 저장하면 누락 된 열에서 누락 된 값을 누락 된 값으로 재설정 할 수 있습니다.'is.na (dataframe) ' –