2017-11-13 14 views
-3

다음 데이터 세트가 있습니다. 500 & 900 사이의 값은 A로 분류되었지만 900 & ~ 1500 사이의 값은 A와 B 사이에 섞였습니다. x의 임의 값에서 A, B 및 C를 얻을 확률을 찾고 싶습니다. 여기서 x는 독립 변수입니다. A, B, C는 제 의존 변수입니다. 그것은 다항 로지스틱 회귀에 잘 맞는 것 같습니다. 나는 각 종속 변수에 대한 관찰의 수가 충분하다고 믿는다. 다항식 회귀 분석이 적절하다면 Python의 scikit 로지스틱 회귀 분석 모듈을 사용하여 x의 값에서 A, B 및 C 확률을 얻으려고합니다. 그러나이 모듈을 사용하여 접근하는 방법을 모르겠습니다.다항식 로지스틱 회귀가이 데이터 집합에 적합한가?

enter image description here

+0

것 같습니다 : http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

여기에 또한 로지스틱 회귀에 대한 설명서입니다. A, B, C는 각각 고유 한 분포를 가지며 관찰 한 것은 p (A) + p (B) p (x | B) + p (C) p (x | C)입니다. 일반적으로 p (A), p (B), p (C) 및 p (x | A), p (x)에 대한 매개 변수를 찾기 위해 소위 기대 최대화 (EM) | B), p (x | C)이다. 그러나 이것들은 매우 일반적인 의견이며 당신이해야 할 일은 문제의 세부 사항에 크게 의존합니다. 아마 당신은 토론을 위해 stats.stackexchange.com에 가져 가야 할 것입니다. –

답변

6

개인적으로는 로지스틱 회귀 분석에 대한 모든 권리 후보처럼 보이지만 그것은 중복 1 차원 보인다는 사실은 열심히 그 부분을 따라 분리 할 수 ​​있습니다. 저는 주로 여러분의 질문 중 두 번째 부분에 답하기 위해 여기에 있습니다.이 질문은 scikit-learn에서 다른 분류 기준으로 일반화 될 수 있습니다.

SGDClassifier에 대한 scikit-learn 섹션은 속성 목록 바로 아래에 간단한 예제가 있지만 SGDClassifier 부분을 LogisticRegression 클래스로 바꾸는 것이 좋습니다. 당신이 혼합 분포라고 무엇을 가지고있는 것처럼 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression