2016-12-02 18 views
1

견고한 피팅 문제에 대해서는 '모자'행렬의 대각선 요소 인 레버리지 값으로 이상 치를 찾고 싶습니다. 데이터 매트릭스 X (* N 개의 피)하자 햇 행렬이다 X'X의 전치이며최소 제곱 회귀에서 레버리지 계산 (모자 행렬의 대각선)을 어떻게 가속화할까요?

Hat = X(X'X)^{-1}X' 

.

n이 큰 경우 햇 행렬이 매우 큽니다 (n * n). 그래서 컴퓨팅은 시간이 많이 걸립니다. 레버리지 값을 계산하는 더 빠른 방법이 있는지 궁금합니다.

+0

난 대답을 생식했습니다. 정말 분명하고 도움이됩니다. 고마워요! – areslp

답변

1

프로그래밍 언어를 지정하지 않았으므로 알고리즘 부분에만 초점을 맞출 것입니다.

QR 인수 분해 및 SVD와 같은 최소 제곱 문제 직교 방법을 적용한 경우 모자 형 행렬은 단순한 형태입니다. 당신은 내 대답 Compute projection/hat matrix via QR factorization, SVD (and Cholesky factorization?)을 (LaTeX로 작성된) 모자 행렬의 명시적인 형태로 체크 아웃 할 수 있습니다. 참고로, OP는 완전한 모자 행렬을 원하므로 대각선 요소 만 효율적으로 계산하는 방법을 보여주지 않았습니다. 그러나 그것은 정말로 간단합니다. 직교 방법의 경우 해트 매트릭스는 양식 QQ'으로 끝납니다. 대각선은 행 단위의 내부 제품입니다. 서로 다른 행 사이의 교차 곱은 벗어난 대각선입니다. R에서, 그러한 행 - 방향 내적은 rowSums(Q^2)으로서 계산 될 수있다.

내 대답 How to compute diag(X %% solve(A) %% t(X)) efficiently without taking matrix inverse?은 좀 더 일반적인 설정입니다. 모자 행렬은 A = X'X의 특별한 경우입니다. 이 답변은 oles레 스키 인수 분해 및 LU 인수 분해와 같은 삼각형 인수 분해의 사용에 초점을 맞추고 대각 요소 만 계산하는 방법을 보여줍니다. 모자 행렬은 Q'Q 양식으로 끝나기 때문에 rowSums 대신 colSums이 표시됩니다.

마지막으로 나는 통계적으로 어떤 것을 지적하고자합니다. 높은 레버리지만으로는 특이 치를 신호하지 않습니다. 높은 레버리지와 높은 잔류 (즉, 쿡의 거리가 높은) 신호의 조합은 아웃 라이어를 신호한다.