2017-11-10 14 views
0

데이터 집합을 분석 중이므로 회귀 분석을 찾아야합니다. 데이터 세트의 데이터 포인트 수가 Threshold (~ 15)이고 작업에 강력한 선형 회귀를 사용하기로 결정했습니다. 문제는 그 절차가 영향력있는 것으로 보이지 않는 특이점으로 몇몇 점을 선택한다는 것입니다. 다음은 크기의 영향을받는 데이터의 산포도입니다.파이썬 statsmodel 강력한 선형 회귀 (RLM) 이상 값 선택

포인트 B와 C (그림에서 빨간색 원으로 표시)가 이상 값으로 선택되는 반면 영향이 큰 포인트 A는 외래 값으로 선택됩니다. 점 A는 회귀의 일반적인 경향을 변경하지 않지만, 기본적으로 가장 높은 X를 갖는 점과 함께 기울기를 정의합니다. 점 B와 C는 기울기의 유의성에만 영향을줍니다. 그래서 내 질문은 두 부분으로 구성되어 있습니다 : 1) 가장 영향력이 큰 부분을 선택하지 않은 경우 RLM 패키지의 특이점 선택 방법은 무엇이며 내가 알고있는 특이점 선택이있는 다른 패키지를 알고 있습니까? 2) A 점이 이상치라고 생각합니까?

답변

1

statsmodels의 RLM은 M 추정기로 제한됩니다. 디폴트 후버 표준은 y에서의 아웃 라이어에 대해서만 강건하지만 x에서는 그렇지 않다. 즉, 나쁜 영향력 포인트에 강건하지 않다.

예를 들어 http://www.statsmodels.org/devel/examples/notebooks/generated/robust_models_1.html 줄을 참조하십시오. [51] 이후에.

bisquare와 같은 표준을 다시 작성하면 나쁜 영향을주는 포인트를 제거 할 수 있지만 솔루션은 로컬 최적이며 적절한 시작 값이 필요합니다. 낮은 breakdown point를 가지며 LTS와 같은 x outliers에 견고한 메소드는 현재 statsmodels이나 AFAIK에서는 Python의 다른 곳에서는 사용할 수 없습니다. R에는 이러한 사례를 처리 할 수있는 견고한 견적 도구 세트가 있습니다. statsmodels.robust에서 더 많은 메소드와 모델을 추가하기위한 일부 확장 기능은 현재 정지 된 요청에 포함되어 있습니다.

일반적으로와 질문의 두 번째 부분에 대답하기 :이 선언하거나 이상치 등의 관찰을 식별하기 어려운 경우가 많습니다 특정 경우에

합니다. 연구원은 더 많은 조사가 필요한 외계인 후보 을 나타내는 강력한 방법을 자주 사용합니다. 예를 들어 한 가지 이유는 "이상치"가 다른 인구 집단에서 추출되었다는 것일 수 있습니다. 순수한 기계적 통계를 사용하는 것은 많은 경우 적절하지 않을 수 있습니다.

이 예에서 가파른 경사와 떨어지는 점 A를 이상 치로 맞추면 B와 C 점이 합리적으로 잘 맞을 것이고 이상치로 식별되지 않을 것입니다. 반면에, A가 추가 정보에 기초한 합리적인 포인트라면 관계가 비선형 일 수 있습니다. LTS가 A를 유일한 이상치로 선언하고 가파른 회귀선에 적합하다고 생각합니다.