0
Pyspark Multinomial Logistic Regression 모델을 작성하고 Django 웹 앱과 통합하여 쿼리 세트에 대한 예측을했습니다. 내 모델에, 내가 저장 후 Pyspark Logistic 회귀 모델 정확도가 변경됨
temp_path = pjoin("/home/maffsojah/Projects/HIT_400/capstone_project/web/tbank/spark-warehouse")
reg_path = temp_path + '/reg'
reg.save(reg_path)
model2 = LogisticRegression.load(reg_path)
model2.getMaxIter()
model_path = temp_path + '/reg_model'
regModel.save(model_path)
model2 = LogisticRegressionModel.load(model_path)
내 모델 내부 테스트 권장
를 사용하여 저장 eveything가 잘 작동되고 정확도가 92 %하지만 난 저장하고 내 장고 응용 프로그램 내에서 내 모델을로드 할 때, 정확도는 매우 낮고 대략 22 %이됩니다.동일한 정확도 수준과 매개 변수를 유지하면서 모델을 저장하고로드하려면 어떻게해야합니까?
의견을 보내 주셔서 감사합니다. 정확성 부분에 혼란 스러웠습니다. 따라서 교육 및 테스트 데이터로 모델의 정확도가 높았더라도 새로운 데이터로 올바른 예측을하지 못할 수 있습니까? 내 장고 애플 리케이션에서, 난 단지 예언을 의도에만 – maffsojah
예. 교육 및 테스트 데이터 세트가 새 데이터를 대표하는 경우에만 올바른 예측을 수행합니다. 예를 들어, 특정 매개 변수를 기반으로 사람의 신장을 예측하려고 시도했지만 훈련 및 테스트 데이터 세트에 남성 데이터 만 포함되어있는 경우 암컷의 신장을 예측할 때 정확도가 떨어질 수 있습니다. – Jaco
@maffsojah Jaco는 아주 좋은 설명을했습니다. 정확도를 높이려면 더 많은 데이터를 수집하고 더 많은 데이터에 모델을 훈련시켜야합니다. 데이터가 허용하는 한 당신의 모델은 무료로 개선 될 것입니다. 그렇지 않으면 Random Forest와 같은보다 복잡한 모델로 시도해야합니다. 그런데 이것은 PySpark 질문이 아니지만 일반적으로 기계 학습과 관련됩니다. –