0
캠퍼스 범죄율을 독립 변수로 사용하는 프로젝트를 진행하고 있습니다. 데이터는 매우 긍정적으로 왜곡되어 있습니다. OLS를 실행하기 위해 정규 분포를 이루기 위해 데이터를 변환해야합니다. 그러나 로그 변환을 수행하면 범죄율이 0 인 모든 사례 (범죄가 없음을 나타냄)가 손실된다는 것을 알고 있습니다. 가능한 다른 해결책은 무엇입니까?변형 범죄율
캠퍼스 범죄율을 독립 변수로 사용하는 프로젝트를 진행하고 있습니다. 데이터는 매우 긍정적으로 왜곡되어 있습니다. OLS를 실행하기 위해 정규 분포를 이루기 위해 데이터를 변환해야합니다. 그러나 로그 변환을 수행하면 범죄율이 0 인 모든 사례 (범죄가 없음을 나타냄)가 손실된다는 것을 알고 있습니다. 가능한 다른 해결책은 무엇입니까?변형 범죄율
log (1 + rate)와 같은 것을 계산하여 케이스가 손실되는 것을 피할 수 있지만 비공식 경계는 어쨌든 문제를 일으킬 수 있습니다. 일반화 된 선형 모델 (Analyze> Generalized Linear Models)을 감마 로그 링크 응답 스케일과 함께 사용하는 것이 좋습니다. 이것은 오른쪽 왜곡 문제를 다룰 수 있습니다.
그러나 OLS 회귀 분석에서 종속 변수가 아니라 정상 가정을 수행하는 것은 오류입니다.
답변 해 주셔서 감사합니다. 전체 모델 자체가 잔차를 기반으로 한 Shapiro-Wilk 테스트를 통해 입증 된 정규성 가정을 충족시키는 경우 원시 데이터를 정규화하는 데 관심이 필요하지 않습니다. – user7441576
예기치 못한 범죄 건수가 1 또는 0이라면 나머지는 한쪽에 심각하게 한정되어 있으므로 선형 모델이 잘못 될 수 있습니다. 그래서 로그 링크가있는 감마를 제안했습니다. – JKP