2014-11-24 5 views
0

카테고리 변수의 누락 값에 대한 실종의 성격을 식별 할 수있는 힌트를 제공해 주시겠습니까? 내 말은, 나는 Google 학자에 대한 빠른 검색을했지만 이것과 관련된 것을 찾지 못했습니다. 누락 값이 무작위로 완전히 누락되거나 누락되거나 누락되거나 무작위로 누락되는 경우 어떻게 이해할 수 있습니까? 도메인을 연구하는 것 외에는 아무것도 생각할 수 없습니다. 일부 논문에 대한 링크는 감사합니다. 미리 감사드립니다. (sas 환경에 추가 하겠지만 질문은이 언어와 특별히 관련이 없습니다).카테고리 변수에 대한 누락의 성격을 확인하십시오

+0

에 오신 것을 환영합니다 당신이이 같은 상황을 가정 해 봅시다. 이것은 Cross Validated (http://stats.stackexchange.com/) (통계 사이트) 대 여기 (프로그래밍 사이트)에 더 적합한 것 같습니다. – LJW

+0

환영 및 힌트를 보내 주셔서 감사합니다! 나는 거기도 시도해 볼게 :) – stat

+0

좋아하지만 교차 게시하지 마십시오 (동시에 두 사이트에 게시); 아마이 하나를 삭제하고 거기에 게시하는 것이 가장 좋습니다. – LJW

답변

0

SAS로 태그를 지정 했으므로 각각의 범주 변수에 대한 부울 변수를 만들어 각 행에 누락 값이 있는지 여부를 나타낼 수 있습니다. 그런 다음 플래그를 사용하여 누락 된 값의 빈도에 대해 원하는 분석을 수행 할 수 있습니다. 예 : proc corr을 사용하여 한 변수의 누락 된 값이 다른 변수의 값과 상호 연관되는지 확인할 수 있습니다.

예.

data example; 
    set sashelp.class; 
    if AGE > 14 then call missing(SEX); 
    SEX_MISSING_FLAG = missing(SEX); 
run; 

그런 다음 다음을 실행하여 자리 수 :

proc corr data = example outp= corr; 
    var age weight height sex_missing_flag; 
run; 

출력 :

_TYPE_,_NAME_,Age,Weight,Height,SEX_MISSING_FLAG 
MEAN,,13.32,100.03,62.34,0.26 
STD,,1.49,22.77,5.13,0.45 
N,,19.00,19.00,19.00,19.00 
CORR,Age,1.00,0.74,0.81,0.78 
CORR,Weight,0.74,1.00,0.88,0.64 
CORR,Height,0.81,0.88,1.00,0.55 
CORR,SEX_MISSING_FLAG,0.78,0.64,0.55,1.00 
+0

try @ user667489 주셔서 감사하지만 proc corr는 범주 형 변수 (다단계 및 더미)에서 작동하지 않습니다. 연속 변수와 같은 범주 형 변수를 관리하는 경우 code proc corr은 작동하지만 유용한 결과를 생성하지 않습니다. 범주 형 변수에 적용된 선형 상관 관계가 의미가 없으므로이 때문입니다. – stat

+0

가장 세련된 예제는 아니지만 위의 코드는 잠재적으로 발견 할 수있는 종류의 것을 보여줍니다. – user667489