3 개의 연속 변수와 5 개의 공칭 변수 (각 변수에 5 개의 카테고리)가있는 결과 변수가 하나 (상태/예) 인 데이터 파일 (1 백만 행)이 있습니다. I 결과 즉 상태를 예측하고 싶습니다. 모델을 빌드하기에 적합한 분석 유형을 알고 싶었습니다. 나는 logit, probit, logistic regression을 보았다. 나는 분석에 더 유용 할 수있는 변수를 시작하고 분석하기 위해 무엇을 혼란스럽게 생각합니다.모델 분석 IN R (Logistic Regression)
데이터 파일 : 성별, 지역, 연령, 회사, 전문, jobrole, DIAG, 실험실, 주문, 상태
M, 서쪽, 41, PA, FPC, 지원, code18,27,3, 예
없는
M, 무효 남, 27, DV, IMC, 지원, 62,13, 아니
M, 사우스 웨스트, 65, CV, FPC, 노동자, code18,69,11, 남서, 18, 이력서, IMC, Worker, code8,6,1, 예
추 신 : R 언어 사용. 도움을 주시면 감사하겠습니다. 감사합니다.
를 사용하여 확인할 수 있습니다 (이 것이 문제가되지 않습니다 당신은 이것을 "R"에서하고 싶다). 어떤 모델을 사용해야하는지 알았 으면 R에서 그 모델을 검색하는 방법을 찾아야합니다. – MrFlick
더미 변수를 사용하여 다중 회귀 분석을 시도하십시오.이 질문은 교차 유효성 검사에 더 적합합니다. – Waqas
[C5.0] (https://cran.r-project.org/web/packages/C50/index.html)과 같은 의사 결정 트리 알고리즘은 연속 변수와 명목 변수의 조합을 포함하는 2 진 분류 작업에서 매우 강력 할 수 있습니다. – RHertel