카테고리 변수의 누락 값에 대한 실종의 성격을 식별 할 수있는 힌트를 제공해 주시겠습니까? 내 말은, 나는 Google 학자에 대한 빠른 검색을했지만 이것과 관련된 것을 찾지 못했습니다. 누락 값이 무작위로 완전히 누락되거나 누락되거나 누락되거나 무작위로 누락되는 경우 어떻게 이해할 수 있습니까? 도메인을 연구하는 것 외에는 아무것도 생각할 수 없습니다. 일부 논문에 대한 링크는 감사합니다. 미리 감사드립니다. (sas 환경에 추가 하겠지만 질문은이 언어와 특별히 관련이 없습니다).카테고리 변수에 대한 누락의 성격을 확인하십시오
답변
SAS로 태그를 지정 했으므로 각각의 범주 변수에 대한 부울 변수를 만들어 각 행에 누락 값이 있는지 여부를 나타낼 수 있습니다. 그런 다음 플래그를 사용하여 누락 된 값의 빈도에 대해 원하는 분석을 수행 할 수 있습니다. 예 : proc corr
을 사용하여 한 변수의 누락 된 값이 다른 변수의 값과 상호 연관되는지 확인할 수 있습니다.
예.
data example;
set sashelp.class;
if AGE > 14 then call missing(SEX);
SEX_MISSING_FLAG = missing(SEX);
run;
그런 다음 다음을 실행하여 자리 수 :
proc corr data = example outp= corr;
var age weight height sex_missing_flag;
run;
출력 :
_TYPE_,_NAME_,Age,Weight,Height,SEX_MISSING_FLAG
MEAN,,13.32,100.03,62.34,0.26
STD,,1.49,22.77,5.13,0.45
N,,19.00,19.00,19.00,19.00
CORR,Age,1.00,0.74,0.81,0.78
CORR,Weight,0.74,1.00,0.88,0.64
CORR,Height,0.81,0.88,1.00,0.55
CORR,SEX_MISSING_FLAG,0.78,0.64,0.55,1.00
try @ user667489 주셔서 감사하지만 proc corr는 범주 형 변수 (다단계 및 더미)에서 작동하지 않습니다. 연속 변수와 같은 범주 형 변수를 관리하는 경우 code proc corr은 작동하지만 유용한 결과를 생성하지 않습니다. 범주 형 변수에 적용된 선형 상관 관계가 의미가 없으므로이 때문입니다. – stat
가장 세련된 예제는 아니지만 위의 코드는 잠재적으로 발견 할 수있는 종류의 것을 보여줍니다. – user667489
에 오신 것을 환영합니다 당신이이 같은 상황을 가정 해 봅시다. 이것은 Cross Validated (http://stats.stackexchange.com/) (통계 사이트) 대 여기 (프로그래밍 사이트)에 더 적합한 것 같습니다. – LJW
환영 및 힌트를 보내 주셔서 감사합니다! 나는 거기도 시도해 볼게 :) – stat
좋아하지만 교차 게시하지 마십시오 (동시에 두 사이트에 게시); 아마이 하나를 삭제하고 거기에 게시하는 것이 가장 좋습니다. – LJW