첫 번째 게시물, 그래서 쉽게 이동하십시오.glm 모델 데이터 집합 summarisation
GLMing의 보험 업계에서는 클래식 클레임의 빈도 및 평균 심각도를 모델링합니다. 이를 염두에두고 필자는 자신을 위해 실험 할 수있는 몇 가지 모델을 만들었으며 지금 질문이 있습니다.
GLM이 데이터 추정의 다양한 수준을 처리하는 방법, 특히 오류 예측과 관련하여 설명 할 수 있습니까?
아래 예를 고려하십시오. 데이터는 두 변수 강한 심각도 경향을 나타낸다 : - A는 B 보다 비싼 항을 갖는다 - 포드> 기아> VAUX> 취기 I가 unsummarised에 모델 데이터 세트의 요약 버전을 끼워
, 따라서이 장착 GLM 두 경우 모두 동일한 매개 변수그러나 GLM은 unummarised 데이터에 잘 맞는 모델을 나타냅니다. 그러나 가중 평균, 즉 평균 심각도를 요약하고 사용할 때 모델은 적합하지 않습니다. 모든 unummarised 데이터가 더 많은 모델을 가지고 모델링 한 후에 이것은 예상했던대로 일 수 있습니다. 또한 가중치 평균은 상대적 강도를 나타내는 데 사용되므로 여기서는 가중치 평균을 지정하는 것이 모두 같은 가중치이기 때문에 무의미합니다.
그러나 기금으로 GLM을 사용하여 평균 심각도를 모델링 할 수 있습니까? 나는 의미없는 데이터 셋에 GLM을 적용한 결과가 평균 심각 할 것이라는 것을 안다. 그러나 나는 이미 요약 된 데이터에 모델을 맞추기를 희망했다. 집계 된 데이터 세트에 대한 모델링은 모델 적합성에 대한 진정한 표시를 제공하지 않습니다.
어리석은 질문 인 경우 사과드립니다. 저는 통계학자가 아니므로 헤 시안 매트릭스를 완전히 이해하지 못합니다.
참조하십시오 아래 코드 :
library(boot)
library(reshape)
dataset <- data.frame(
Person = rep(c("A", "B"), each=200),
Car = rep(c("Ford", "Kia", "Vaux", "Jag"), 2, each=50),
Amount = c(rgamma(50, 200), rgamma(50, 180), rgamma(50, 160), rgamma(50, 140),
rgamma(50, 100), rgamma(50, 80), rgamma(50, 60), rgamma(50, 40))
)
Agg1 <- ddply(dataset, .(Person, Car), summarise, mean=mean(Amount), length=length(Amount))
m1 <- glm(Amount ~ Person + Car, data = dataset, family = Gamma(link="log"))
m2 <- glm(mean ~ Person + Car, data = Agg1, family = Gamma(link="log"), weights=length)
summary(m1)
summary(m2)
감사합니다,
닉
답장을 보내 주셔서 감사합니다. jlhoward는 매우 유용했습니다. – user3283627