2017-11-09 12 views
1

저는 위험 분석가로 일하고 있습니다. 나의 상사는 어떻게 해야할지 모르는 과제를 나에게 할당했습니다.R의 위험 평가 모델은 요인의 특정 수준의 확률을 얻기 위해

지금 당장 특정 조건 하에서 확률을 얻고 싶습니다. 예를 들어 데이터는 다음과 같습니다.

sex  hair_color Credit_Score Loan_Status 
"Male" "Red"  "256"  "bad"   
"Female" "black" "133"  "bad"   
"Female" "brown" "33"   "bad"   
"Male" "yellow" "123"  "good" 

그래서 각 고객에 대해 Loan_Status를 예측하고 싶습니다. "sex", "hair_color", "credit_score"를 요인으로 처리 할 수 ​​있습니다. 그리고 이것들을 R의 glm()에 넣으십시오.

그러나 내 상사는 남성, 빨간 머리 인 새로운 고객이 대출 상태가 '좋을'확률을 알고 싶습니까? "

또는 "남성 고객의 대출 상태가 '좋음'이 될 확률은 얼마입니까?"

어떤 방법을 사용해야합니까? 확률을 얻는 방법? 한계 분포에 대해 생각하고 있지만이 작업이나 계산 방법을 모르겠습니다. 내가 이해하는이 질문은 쉽게 만들어, 누가 나에게 도움이 될 것입니다 희망

은, 시간 내 주셔서 대단히 감사합니다

+0

'예측'을 찾으십시오. – JDL

+0

"위험 분석가로 일하는"경우 위험 예측과 관련된 작업을 수행하는 방법을 알아야합니다. 어떻게하는 법을 아십니까? –

답변

0

나는이 튜토리얼은 완벽하게 문제를 맞는 생각 : http://www.theanalysisfactor.com/r-tutorial-glm1/

당신이 그것을 사용하는 경우 데이터에 대해서는 다음과 같이 보입니다.

sex <- factor(c("m", "f", "f", "m")) 
hair_color <- factor(c("red", "black", "brown", "yellow")) 
credit_score <- c(256, 133, 33, 123) 
loan_status <- factor(c("b", "b", "b", "g")) 

data <- data.frame(sex, hair_color, credit_score, loan_status) 

model <- glm(formula = loan_status ~ sex + hair_color + credit_score, 
     data = data, 
     family = "binomial") 

predict(object = model, 
    newdata = data.frame(sex = "f", hair_color = "yellow", credit_score =  100), 
    type = "response") 
+0

도움을 주셔서 대단히 감사합니다! 그러나 섹스가 "f"일 때만 필요하다면, 나는 한계 분배와 같은 것을 사용해야합니까? – DIoo

+0

나는 정말로 그 질문을 얻지 못한다. 위의 모델은 성별이 올바른 대출 상태를 얻는 요인이기 때문에 남성과 여성 모두의 예제로 훈련되었습니다. 여성 만 예측하려는 경우 여성으로부터 오는 예측 기능에 입력 만 추가하면됩니다. 여성의 경우에만 모델이성에 의해 영향을 받도록하고 싶지 않거나 훈련시키지 않으려면 성 변수가 필요하지 않습니다. 필자는 glm 모델/기능이 어떻게 작동하는지에 대한 조사를 해보면 더 명확하게 알 수 있다고 제안합니다. 희망이 도움이되었습니다! –

+0

다시 한 번 감사드립니다! 어쩌면 데이터를 기반으로 질문을 바꾸는 것이 좋습니다. 예를 들어 노란색과 신용 점수가 100 인 여성이 "좋은"점수를받을 가능성이 가장 높은 경우와 같이 "좋은"점수를 얻기위한 최선의 조합을 어떻게 알 수 있습니까? 많은 범주 형 변수가있는 경우 어떻게 최상의 조합을 결정할 수 있습니까? – DIoo