다음 두 개의 R 함수는 "누락 된 데이터의 유연한 대체"(59 페이지 및 63 페이지)에서 가져온 것입니다. 첫 번째는 완전 무작위 (MCAR) 데이터 누락을 생성하고 두 번째는 누락 (MAR) 데이터 누락을 생성합니다. 두 함수 모두 약 50 %의 누락 값을 제공합니다.MAR 데이터의 다른 백분율 생성 R
MCAR 함수에서 p 값을 변경하여 누락 된 데이터의 다른 비율을 생성 할 수 있습니다. 그러나 MAR 함수에서는 10 % 또는 30 % 같은 누락 된 데이터의 다른 비율을 생성하기 위해 어떤 매개 변수를 변경해야하는지 이해하지 못합니다.
MCAR
makemissing <- function(data, p=0.5){
rx <- rbinom(nrow(data), 1, p)
data[rx==0,"y"] <- NA
return(data)
}
MAR
logistic <- function(x) exp(x)/(1+exp(x))
set.seed(32881)
n <- 10000
y <- mvrnorm(n=n,mu=c(5,5),Sigma=matrix(c(1,0.6,0.6,1),nrow=2))
p2.marright <- 1 - logistic(-5 + y[,1])
r2.marright <- rbinom(n, 1, p2.marright)
yobs <- y
yobs[r2.marright==0, 2] <- NA
누락 된 데이터 주제에 대한 자세한 내용은 Roderick J.A.의 누락 된 데이터로 통계 분석 2 판을 참조하십시오. Little and Donald B. Rubin (2002) Wiley **. –