2017-03-08 4 views
0

캠퍼스 범죄율을 독립 변수로 사용하는 프로젝트를 진행하고 있습니다. 데이터는 매우 긍정적으로 왜곡되어 있습니다. OLS를 실행하기 위해 정규 분포를 이루기 위해 데이터를 변환해야합니다. 그러나 로그 변환을 수행하면 범죄율이 0 인 모든 사례 (범죄가 없음을 나타냄)가 손실된다는 것을 알고 있습니다. 가능한 다른 해결책은 무엇입니까?변형 범죄율

답변

1

log (1 + rate)와 같은 것을 계산하여 케이스가 손실되는 것을 피할 수 있지만 비공식 경계는 어쨌든 문제를 일으킬 수 있습니다. 일반화 된 선형 모델 (Analyze> Generalized Linear Models)을 감마 로그 링크 응답 스케일과 함께 사용하는 것이 좋습니다. 이것은 오른쪽 왜곡 문제를 다룰 수 있습니다.

그러나 OLS 회귀 분석에서 종속 변수가 아니라 정상 가정을 수행하는 것은 오류입니다.

+0

답변 해 주셔서 감사합니다. 전체 모델 자체가 잔차를 기반으로 한 Shapiro-Wilk 테스트를 통해 입증 된 정규성 가정을 충족시키는 경우 원시 데이터를 정규화하는 데 관심이 필요하지 않습니다. – user7441576

+0

예기치 못한 범죄 건수가 1 또는 0이라면 나머지는 한쪽에 심각하게 한정되어 있으므로 선형 모델이 잘못 될 수 있습니다. 그래서 로그 링크가있는 감마를 제안했습니다. – JKP