2012-10-17 5 views
11

2 진 결과가있는 회귀 모델이 있습니다. 나는 glmnet으로 모델을 맞추었고 선택된 변수와 계수를 얻었다.glmnet 모델의 회귀 계수에 대한 통계 요약 정보를 얻지 않는 이유는 무엇입니까?

glmnet은 변수의 중요도를 계산하지 않으므로 glm에 정확한 출력 (선택된 변수와 계수)을 입력하여 정보를 얻으려고합니다 (표준 오류 등).

나는 r 개의 문서를 검색했는데, glm에서 "method"옵션을 사용하여 사용자 정의 함수를 지정할 수있는 것 같습니다. 하지만 그렇게하지 못했습니다. 누군가 이걸 도와 줄 수 있습니까?

+0

재생 가능한 예제를 참조하십시오. http://tinyurl.com/reproducible-000 –

+0

지금 당장 모범을 보이지는 않지만 질문을 간단하게하기 위해. y = 2.3 * x1 + 3.1 * x2 + 0.9 * x3과 같이 glmnet에서 공식 출력이 있다고 가정합니다. glm에서이 공식을 어떻게 지정하여 조작 할 수 있습니까? – TongZZZ

+0

은 재현 할 수 없지만 조금 더 좋은 아이디어를 제공합니다. 나는 당신이 원하는 것을 할 수 없을 것이라고 생각합니다. 즉, 완전히 지정된 모델을 glm에 오프셋 용어로 지정하여 공급할 수는 있지만, 시작점에서 변수의 중요도를 계산할 수 있는지 확신 할 수 없습니다.변수를 중요시하는 정보를 제공하는 * 및 * 모델에 걸쳐 평균화하여 축소 형을 수행하는 '캐럿 (caret)'패키지 사용에 대해 생각해 보셨습니까? –

답변

26

는 "회귀 계수 또는 다른 추정량의 표준 오차를 요청하는 매우 자연스러운 질문이다. 원칙적으로 같은 표준 오류가 쉽게 예를 들어 부트 스트랩을 사용하여 계산 될 수있다.

그럼에도 불구하고,이 패키지는 의도적으로 제공하지 않습니다. 의 이유는 페널티 화 된 추정 방법에서 비롯되는 편향된 추정에 대해서는 표준 오차가 매우 중요하지 않다는 것입니다. 처벌 추정은 실질적으로 b를 도입하여 추정 자의 편차를 줄이는 절차입니다. 나. 따라서 각 추정기의 편향은 은 평균 제곱 오류의 주요 구성 요소 인 반면 분산은 작은 부분 만 기여할 수 있습니다.

불행히도, 불이익 회귀의 대부분의 응용 프로그램에서는 편향의 충분히 정확한 추정을 얻는 것이 불가능하므로 입니다. 어떤 부트 스트랩 기반 계산은 추정치의 평가 만 제공 할 수 있습니다. 신뢰할 수있는 편견 추정치를 사용할 수있는 경우 바이어스의 신뢰할 수있는 추정치는 이며, 이 사용 된 상황에서는 일반적으로 이 아닙니다.

따라서 처벌 추정의 표준 오류를보고하면 이야기의 일부분 만 에게 알려줍니다. 바이어스로 인한 부정확성을 완전히 무시하면서 큰 정밀도의 잘못된 인상을 줄 수 있습니다. 확실히 부트 스트랩 기반의 신뢰 구간이 할 같은 단지 추정치의 분산의 평가를 기반으로 신뢰 문을 만들 수있는 실수입니다. "나는했습니다

Jelle Goeman, Ph.D. Leiden University, Author of the Penalized package in R.

+0

S.E. 제공되지 않습니다! – TongZZZ

0

볼 사람들은 glmnet. 에 의해 선택된 예측을 사용하여 glm을 실행하고 높은 차원 모델에 대한 추론을 제공 CRAN 패키지 hdi 예 :도, 당신은 그 살펴 할 수 있습니다 ...