나는 단계적 모델 선택을 수행하여 분산 인플레이션 팩터가있는 변수를 점차적으로 특정 임계 값 이상으로 떨어 뜨립니다.파이썬에서 가장 빠른 선형 회귀 구현
이렇게하려면 몇 백 메가 바이트에서 10 기가에 이르는 데이터 세트에서 OLS를 여러 번 실행하고 있습니다.
더 큰 데이터 세트의 경우 OLS의 가장 빠른 구현은 무엇입니까? Statsmodel OLS 구현은 행렬을 반전시키기 위해 numpy를 사용하는 것 같습니다. 그라디언트 디센트 기반 메소드가 더 빠릅니까? scikit-learn은 특히 빠른 구현을합니까?
아니면 pymc를 사용하여 MCMC 기반의 접근 방식은 빠른입니다
...업데이트 1 : 선형 회귀의 학습 scikit 구현이 scipy 구현을위한 래퍼 것 같다.
업데이트 2 : scikit를 통해 Scipy의 OLS는 가장 빠른 (IIRC)을 scikit 배우기 SGDRegressor 클래스는
얼마나 많은 행/관측과 몇 개의 열/설명 변수가 있습니까? – user333700
수백 개의 관측과 행이 있습니다. – Luke