2016-08-29 5 views
2

Naive Bayes 기반 구현을 위해 노력 중이며 모델 튜닝에 관해서는 Spark 2.0을 사용하고 있습니다. 모델, 나는 스파크 2에서 모델 지속성 지원을 잘 알고 있지만 걱정은 저장된 모델의 데이터 폴더에서 순진한 베이 즈에 대한 저장된 모델의 내용과 관련이 있습니다. 파이 (벡터)의 값은 저장됩니다 클래스의 수에 대해서는 & 이외는 Naive Bayes에 설정되어있는 클래스 수 &의 수에 의존하는 theta (매트릭스)이기 때문에, 모델의 데이터 폴더의 소트 내용에는 실제의 데이터에 의존해 데이터 사이즈가 커지므로Spark Naive Bayes 모델 지속성 : pi & theta 이해

아무도 내가 위트를 도울 수 있습니까? h 정확히 무엇이 저장되는지 이해하면 기본적으로 동일한 데이터를 내 프로덕션 아키텍처에 저장할 위치를 결정해야합니다.

는 나는 그들이 그 차원 C (인 클래스 전과의

  • 파라미터 : 파이 로그, 상기 언급 된 스파크 자바 문서에 .. t는 그들이 정확히 이해하고, 돈 그러나이에 많이 찾으려고 차원이 클래스의 수) 클래스 조건부 확률의
  • 파라미터 : 세타 로그, 기능 (수)

D에 의해 C (클래스의 수)하지만 난 정확하게 이러한 값이 무엇인지 이해할 수 없습니다입니다 왜 그들이 필요한지, 누군가가 도와 주면 도움이 될 것입니다. 이해

질문은 그들이 그렇게하기 전에이 1.6이이 두 속성은 나이브 베이 즈 모델을 포함하는 파이 & 세타

+0

좋은 자료를 찾을 수 있었습니까? – woodhead92

답변

0

없이 작업 할 것, 버전 2.0에 추가 된 사실에 관한 것이다. Naive Bayes는 특성 벡터 X (입력 벡터)가 주어진 클래스 C를 예측하는 데 사용됩니다. 이렇게하려면 베이 즈 정리 (Bayes Theorem)를 사용합니다. 어떤 수학적 마법을 사용하면 Bayes Theorem을 분류에 최적화 할 수 있습니다. 남은 것은 :

P (C | X) = P (x1 | C) * ... * P (xn | C)입니다.

또는 더욱 최적화 :

P (C | X) = 로그 (P (C)) + 로그 (P (X1 | C)) + ... + 로그 (P (XN | C))

참고 :이 경우 "="기호는 정확하지 않습니다. 근사치와 비슷합니다.

그래서 모델은 이러한 확률을 알아야합니다. P (C)는 파이 벡터로 보인다. P (xn | C)는 theta 행렬 인 것 같다. Theta 행렬은 무한대로 커지지 않습니다. 크기는 입력 변수 xn의 수와 가능한 값으로 결정됩니다.