5

로 데이터 회귀 모델을 학습 데이터에 적용한 후에받은 각 계수의 유의 수준을 얻는 방법이 있습니까?pyspark에서 로지스틱 회귀 계수의 significane 값을 추출 할 수 있습니까

나는 길을 찾으려고 노력 중이며 자신을 알아 내지 못했습니다.

나는 chi sq 테스트를 실행하면 각 기능의 유의 수준을 얻을 수 있다고 생각하지만 처음에는 모든 기능에 대한 테스트를 실행할 수 있는지 그리고 두 번째로는 숫자 데이터 값을 가질 수 있는지에 대해 잘 모르겠다. 옳은 결과인지 아닌지는 질문으로 남습니다.

는 지금은 사람이 되거 수 있다면

, 그것은 도움이 될 것입니다 statsmodel를 사용하여 모델링 부분을 실행하고 배우고 scikit하지만 확실히 내가 pySparl ML 또는 MLLib 자체에서 이러한 결과를 얻을 수있는 방법을 알고 싶어

답변

3

난 그냥 mllib를 사용하여 모델을 훈련 할 때 모델 PMML 형식 (XML 파일)을 내보내는 PMM 방법을 사용할 수 있다고 생각하면 xml 파일을 구문 분석하여 기능 가중치를 파싱 할 수 있습니다. 예 :

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

희망이 도움이 될 것입니다.

+0

감사합니다. 잠시 동안, 필자는 pyspark를 사용하여 입력 데이터에 ELT를 적용한 다음, 통계 모델로 전환하여 모델링을 수행하는 하이브리드 방식을 사용했습니다. 그것은 나를 위해 일했다. 분명히 스파크의 장점을 잃어 버렸지 만 그것은 단지 내 목적에 도움이되었습니다. – CARTman