2017-05-12 5 views
0

Pyspark Multinomial Logistic Regression 모델을 작성하고 Django 웹 앱과 통합하여 쿼리 세트에 대한 예측을했습니다. 내 모델에, 내가 저장 후 Pyspark Logistic 회귀 모델 정확도가 변경됨

temp_path = pjoin("/home/maffsojah/Projects/HIT_400/capstone_project/web/tbank/spark-warehouse") 
reg_path = temp_path + '/reg' 
reg.save(reg_path) 
model2 = LogisticRegression.load(reg_path) 
model2.getMaxIter() 

model_path = temp_path + '/reg_model' 
regModel.save(model_path) 
model2 = LogisticRegressionModel.load(model_path) 

내 모델 내부 테스트 권장

를 사용하여 저장 eveything가 잘 작동되고 정확도가 92 %하지만 난 저장하고 내 장고 응용 프로그램 내에서 내 모델을로드 할 때, 정확도는 매우 낮고 대략 22 %이됩니다.

동일한 정확도 수준과 매개 변수를 유지하면서 모델을 저장하고로드하려면 어떻게해야합니까?

답변

2

로지스틱 회귀 분석을 수행하면 저장시 변경되지 않는 일부 가중치로 끝납니다. 또한 정확도 측면에서 기계 학습의 개념을 이해하지만 입력이 데이터인지는 확실하지 않습니다. 난 당신이 아마도 당신의 장고 애플 리케이션에 대한 입력으로 다른 데이터를 사용한 다음 당신의 정확도가 낮을 ​​수 있다고 생각합니다. 모델을 훈련 한 동일한 데이터 세트를 사용하는 경우를 제외하고는 동일한 정확도 수준을 유지할 수는 없지만이를 overfitting이라고합니다.

+0

의견을 보내 주셔서 감사합니다. 정확성 부분에 혼란 스러웠습니다. 따라서 교육 및 테스트 데이터로 모델의 정확도가 높았더라도 새로운 데이터로 올바른 예측을하지 못할 수 있습니까? 내 장고 애플 리케이션에서, 난 단지 예언을 의도에만 – maffsojah

+1

예. 교육 및 테스트 데이터 세트가 새 데이터를 대표하는 경우에만 올바른 예측을 수행합니다. 예를 들어, 특정 매개 변수를 기반으로 사람의 신장을 예측하려고 시도했지만 훈련 및 테스트 데이터 세트에 남성 데이터 만 포함되어있는 경우 암컷의 신장을 예측할 때 정확도가 떨어질 수 있습니다. – Jaco

+1

@maffsojah Jaco는 아주 좋은 설명을했습니다. 정확도를 높이려면 더 많은 데이터를 수집하고 더 많은 데이터에 모델을 훈련시켜야합니다. 데이터가 허용하는 한 당신의 모델은 무료로 개선 될 것입니다. 그렇지 않으면 Random Forest와 같은보다 복잡한 모델로 시도해야합니다. 그런데 이것은 PySpark 질문이 아니지만 일반적으로 기계 학습과 관련됩니다. –