2016-08-05 8 views
0

3 개의 연속 변수와 5 개의 공칭 변수 (각 변수에 5 개의 카테고리)가있는 결과 변수가 하나 (상태/예) 인 데이터 파일 (1 백만 행)이 있습니다. I 결과 즉 상태를 예측하고 싶습니다. 모델을 빌드하기에 적합한 분석 유형을 알고 싶었습니다. 나는 logit, probit, logistic regression을 보았다. 나는 분석에 더 유용 할 수있는 변수를 시작하고 분석하기 위해 무엇을 혼란스럽게 생각합니다.모델 분석 IN R (Logistic Regression)

데이터 파일 : 성별, 지역, 연령, 회사, 전문, jobrole, DIAG, 실험실, 주문, 상태

M, 서쪽, 41, PA, FPC, 지원, code18,27,3, 예

없는

M, 무효 남, 27, DV, IMC, 지원, 62,13, 아니

M, 사우스 웨스트, 65, CV, FPC, 노동자, code18,69,11, 남서, 18, 이력서, IMC, Worker, code8,6,1, 예

추 신 : R 언어 사용. 도움을 주시면 감사하겠습니다. 감사합니다.

+0

를 사용하여 확인할 수 있습니다 (이 것이 문제가되지 않습니다 당신은 이것을 "R"에서하고 싶다). 어떤 모델을 사용해야하는지 알았 으면 R에서 그 모델을 검색하는 방법을 찾아야합니다. – MrFlick

+0

더미 변수를 사용하여 다중 회귀 분석을 시도하십시오.이 질문은 교차 유효성 검사에 더 적합합니다. – Waqas

+0

[C5.0] (https://cran.r-project.org/web/packages/C50/index.html)과 같은 의사 결정 트리 알고리즘은 연속 변수와 명목 변수의 조합을 포함하는 2 진 분류 작업에서 매우 강력 할 수 있습니다. – RHertel

답변

2

이 세 가지가 주어지면 대개 Logistic 회귀 분석을 시작합니다.

Logistic과 Logit은 같은 점에 유의하십시오.

Logistic과 Probit 사이를 결정하는 동안 Logistic으로 이동하십시오.

일반적으로 Probit는 결과를 더 빨리 반환하지만 Logistic은 해석 결과에 더 나은 가장자리를 갖습니다.

이제 변수를 결정하십시오 - 모델에서 사용할 변수의 수를 변경할 수 있습니다. 이제

model1 <- glm(status ~., data = df, family = binomial(link = 'logit')) 

, 모델 요약을 확인하고 예측 변수의 중요성을 확인합니다. 당신이 더 중요한 어떤 변수를 식별 할 수있을 것입니다 변수의 수를 감소와

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit')) 

.

또한 데이터 정리를 수행했는지 확인하십시오. 높은 상관 관계 변수를 포함

하지 마십시오, 당신은 당신이 모델 선택에 도움이 필요한 경우, 당신은 [stats.se] 통계 질문 주제에 어디에서 이상 요청해야 cor()