2012-09-05 4 views
5

csv 파일에 저장된 이항 종속 변수 (Y)와 12 개의 독립 변수 (X1 ~ X12)로 구성된 데이터 집합이 있습니다. 로지스틱 회귀 분석을위한 분류 표 R

Y,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12 
0,9,3.86,111,126,14,13,1,7,7,0,M,46-50 
1,7074,3.88,232,4654,143,349,2,27,18,6,M,25-30 
1,5120,27.45,97,2924,298,324,3,56,21,0,M,31-35 
1,18656,79.32,408,1648,303,8730,286,294,62,28,M,25-30 
0,3869,21.23,260,2164,550,320,3,42,203,3,F,18-24 

난 다음 코드를 사용하여 데이터로부터 회귀 모형을 구축 : 여기서, 데이터의 제 5 행은

mydata <- read.csv("data.csv")  
mylogit <- glm(Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12, data=mydata, 
       family="binomial") 
mysteps <- step(mylogit, Y~X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12, data=mydata, 
       family="binomial") 

I 코드를 사용하여 각각의 데이터에 대한 예측 확률을 얻을 수있다 :

theProbs <- fitted(mysteps) 

이제, 분류 테이블을 작성하고자 - I가 아버님을 판별 할 수있는 - 데이터 테이블 (mydata)의 제 20 개 행을 사용하여 실제로 데이터와 일치하는 예측 된 확률의 수 종속 변수 (Y)의 경우 0은 0.5보다 작은 확률을 나타내고 1은 0.5보다 큰 확률을 나타냅니다.

저는 많은 시간을 성공없이 분류하려고했습니다. 이 문제를 해결하는 데 도움이 될 수있는 코드를 제안 해 주시면 대단히 감사하겠습니다.

+6

어떤 테이블'에 대한을 (theProbs> 0.5, mydata을 $ Y)'(그것은에 서브 세트를 쉽게 처음 20 번 관측)? – chl

+0

감사합니다 백만 Chi. 나는 이것이 내가 필요한 것일 뿐이라고 생각한다. 다시 한 번 감사드립니다. –

답변

1

'라운드'가 여기에서 할 수 있다고 생각합니다.
테이블 (round (theProbs))

8

질문은 다소 오래되었지만 누군가가 아카이브를보고 있다면 이것이 도움이 될 수 있습니다. 이 쉽게 xtabs에 의해 수행되는이 같은 테이블 생성합니다

classDF <- data.frame(response = mydata$Y, predicted = round(fitted(mysteps),0)) 

xtabs(~ predicted + response, data = classDF) 

:

  response 
predicted 0 1 
     0 339 126 
     1 130 394