2016-12-02 5 views
0

회귀 모델을 사용하지 않는 극단적 인 예외가 있습니다. If-Then-Else 문을 사용하여 제거했습니다. 그러나 SAS는 이러한 데이터 포인트를 완전히 제거하고 남은 데이터에 새로운 이상 치를 발견했습니다. 믹스에 더 많은 것을 던지지 않고 이상 치를 분석에서 제거 할 수있는 방법이 있습니까?If-Then-Else 문을 사용하여 sas에서 극단적 인 비정상 종료 값 처리

내가 Q3 + 1.5 * IQR을 계산 않도록 그 값을 사용 :

Data lungcancer; input trt surv age sex @@; 
/* create a new variable diff */ 
diff = surv - 365; 
/* create a new categorical variable resp */ 
If diff > 0 then resp= 1; 
If diff <= 0 then resp= 0; 
/* create a new categorical variable sev */ 
    if 2276 > surv >= 1621 then sev=0; 
    Else If 456 <= surv <= 1620 then sev=1; 
    Else if 181 <= surv <= 455 then sev=2; 
    Else if 1 <= surv <= 180 then sev=3; 
    Else if surv > 2276 then delete; /* Remove outliers */ 
+0

새로운 이상 치를 찾는 것이 무슨 뜻인지 잘 모르겠습니다. 좀 더 자세히 설명해 주시겠습니까? 특이 값의 정의가 정확하지 않으며 특이 값을 제거하는 것이 반드시 최상의 방법은 아닙니다. – Reeza

+0

예 @Reeza, 알아. 나는 그것들을 제거 할 때 배포판이 어떻게 변화하는지에 대한 느낌을 얻으려고 노력하고있다. SAS가 학생화 된 잔여 물을 계산할 수있는 방법을 알고 있습니까? – Jabernet

+0

잔차는 모델의 예측을 의미합니다. 모델/PROC에 따라 다양한 잔차를보고하는 옵션이 보통 있습니다. – Reeza

답변

0

그래서, 당신은 데이터의 새로운 세트를 가지고 다음 데이터의 가장자리에 있었다 일부 데이터 포인트를 제거하고 그리고 재 계산 된 IQR, 그리고 ... 새로운 "outliers"가 있다는 것에 놀라 는가?

이것은 특별한 일을하는 SAS가 아니며, 1.5 * IQR에서 항목을 식별하는 것입니다. 이상 치 제거는 항상 당신에게 달렸습니다 (어쨌든, 당신이 이런 식으로 일을 할 때, 나는 더 진보 된 procs 중 하나를 사용하지 않습니다) : 데이터에 따라 이상 치를 결정하고 제거합니다. 그렇다면이 새로운 데이터 포인트가 이상 치라고 생각하십니까? 제거하거나 그것에 따라.

+0

나는 학생화 된 잔여 물에 영향을 미치고 영향력을 조사하는 것을 고려하고 있었고 아마도 그것을 기반으로 제거를 고려하고있었습니다. 그 일을하는 데 어려움을 겪고 있습니다. @Joe 제안이 있으십니까? – Jabernet

+0

그런 종류의 질문은 [stats.se]에 훨씬 낫다. – Joe

+0

감사합니다. 나는 거기에서 물을 것이다. – Jabernet