내 데이터 세트에는 많은 중복 관찰이 있지만 (각 관찰은 계산해야 함). 따라서 GAM에서 '가중치'옵션을 사용하면 계산 시간이 크게 단축되므로이 옵션을 사용하는 것이 좋습니다.GAM의 가중치 옵션
이 "(2)의 중량은, 예를 들어, 정확하게 제조하는 데에 상당 참고 :
gam
함수 (mgcv
패키지)는 그들 (?gam
에서weights
인수에)"등가 "것으로 설명 같은 관찰 두 번. "
하지만 올바르게 보이지 않습니다.
yy = c(5,2,8,9)
xx = 1:4
wgts = c(3,2,4,1)
yy2 = rep(yy, wgts)
xx2 = rep(xx, wgts)
mod1 = gam(yy2 ~ xx2)
mod2 = gam(yy ~ xx, weights = wgts)
mod3 = gam(yy ~ xx, weights = wgts/mean(wgts))
predict(mod1,data.frame(xx2=1:4))
predict(mod2,data.frame(xx=1:4))
predict(mod3,data.frame(xx=1:4))
견적은 세 모델 모두에서 동일합니다. 표준 오류는 모델 2와 3은 같지만 모델 1은 다릅니다. GCV는 세 가지 모델 모두에서 다릅니다.
GCV가 다를 수 있음을 이해합니다. 표준 오류가 다른 경우 모델이 동일하다고 어떻게 말할 수 있습니까? 이 오류입니까, 아니면 이에 대한 설명이 있습니까?
무엇 풀 서비스 대답 ! 아주 철저합니다. – Gregor
우선, GAM과 선형 회귀는 완전히 다른 방식으로 작동합니다. '작품'으로 설명하는 것은 부적절 할 수 있습니다. 선형 회귀 (또는 가중 된 선형 회귀)는 행렬 계산 (X'X)에서 계수를 발견^(- 1) X'y (X'WX)^(- 1) X'Wy). 반면 GAM 추론은 그러한 행렬 계산을 포함하지 않습니다. 그들은 최대 우도 방법을 사용합니다. GAM 매뉴얼에 따르면 '가중치'옵션은 '로그 가능성에 대한 데이터 기여도에 대한 우선 가중치'입니다. – user67275
또한 GAM의 '가중치'가 이분 산성을 다루는 데 사용되도록 고안된 것인지 잘 모르겠습니다. 'gam 설명서'에 따르면 가중치 옵션은 "정확히 같은 관찰을 두 번했는데"라는 상황에서 사용할 수 있습니다. 왜 결과 (묶음 관측 대 주파수를 가중치로 사용)가 동일하지 않은지 궁금했습니다. – user67275