다른 프로그램에서 학생 등록을 보는 회귀 모델을 개발하는 임무를 맡았습니다. 이것은 매우 훌륭하고 깨끗한 데이터 세트로, 등록 수는 푸 아송 분포 우물을 따릅니다. R (GLM과 Zero Inflated Poisson을 모두 사용하는 모델)에 적합했습니다. 결과로 나온 잔차가 합리적으로 보였습니다.R의 Rate 변수에 대한 회귀
그러나 학생들 수를 student/school_population (각 학교는 자체 인구가 있습니다)로 계산 된 "비율"로 변경하도록 지시되었습니다. 이제는 더 이상 카운트 변수가 아니지만 0에서 1 사이입니다. 이것은 프로그램에서 "등록 비율"로 간주됩니다.
이 "비율"(학생/인구)은 더 이상 포아송이 아니지만 분명히 정상이 아닙니다. 그래서 저는 적절한 분배와 그것을 나타내는 후속 모델에 관해서는 약간 분실되어 있습니다.
로그 정규 분포가이 비율 매개 변수에 잘 맞는 것처럼 보이지만 많은 0 값이 있으므로 실제로 적합하지 않습니다.
이 새로운 매개 변수에 대한 최적의 배포 방법에 대한 제안과 R로 모델링하는 방법은 무엇입니까?
감사합니다.
노출/오프셋 변수 (http://en.wikipedia.org/wiki/Poisson_regression#.22Exposure.22_and_offset)를 사용하는 경우입니다. http://stats.stackexchange.com/ – Rcoster
에 대한 질문은 r-help에 교차 게시되었습니다. http://thread.gmane.org/gmane.comp.lang.r.general/291112 –