2014-11-23 2 views
1

R에서 factorial anova의 요약을 이해하는 데 어려움이 있습니다. 왜 첫 번째 변수 만 Df 2를 얻는 지 이해할 수 없습니다. A, B, C 및 D에는 모두 3 단계가 있으므로 이해를 위해서는 해당 부분과 상호 작용에 2 Df를 가져야합니다. 코드를 수정하거나 결과를 이해하도록 도와주세요.Factorial Anova in R

P. summary() 옵션 목록은 어디에서 찾을 수 있습니까? 시그 (SIG) 수준 이후 *를 제거한 한 가지 예를보고 어떤 옵션이 있는지보고 싶습니다.

여기 사전

에 감사하는 것은 내가

전체 데이터 세트가 데이터입니다 나는

Runs I A B C D AB E AD BC F G H J K B1 B2  y 
1  1 1 -1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 -1 1 190.9 
2  2 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 -1 -1 436.2 
3  3 1 -1 1 -1 -1 -1 1 1 -1 -1 1 1 1 -1 1 -1 480.3 
4  4 1 1 1 -1 -1 1 -1 -1 -1 -1 1 -1 -1 1 1 1 406.3 
5  5 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 212.9 
6  6 1 1 -1 1 -1 -1 1 -1 -1 1 -1 -1 1 -1 1 1 478.7 
7  7 1 -1 1 1 -1 -1 -1 1 1 -1 -1 -1 1 1 -1 1 396.5 
8  8 1 1 1 1 -1 1 1 -1 1 -1 -1 1 -1 -1 -1 -1 349.7 
9  9 1 -1 -1 -1 1 1 1 -1 1 -1 -1 -1 1 1 1 -1 119.7 
10 10 1 1 -1 -1 1 -1 -1 1 1 -1 -1 1 -1 -1 1 1 372.2 
11 11 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 411.6 
12 12 1 1 1 -1 1 1 -1 1 -1 1 -1 -1 1 -1 -1 -1 382.8 
13 13 1 -1 -1 1 1 1 -1 -1 -1 -1 1 1 1 -1 -1 1 161.2 
14 14 1 1 -1 1 1 -1 1 1 -1 -1 1 -1 -1 1 -1 -1 424.3 
15 15 1 -1 1 1 1 -1 -1 -1 1 1 1 -1 -1 -1 1 -1 322.8 
16 16 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 302.1 
17 17 1 0 0 0 0 0 0 0 0 0 0 0 -1 1 0 0 302.4 
18 18 1 0 0 0 0 0 0 0 0 0 0 0 1 -1 0 0 318.2 
19 19 1 0 0 0 0 0 0 0 0 0 0 0 -1 1 0 0 332.8 

> data 
###Factors 
> A 
[1] -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 0 0 0 
Levels: -1 0 1 
> B 
[1] -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 0 0 0 
Levels: -1 0 1 
> C 
[1] -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 0 0 0 
Levels: -1 0 1 
> D 
[1] -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 0 0 0 
Levels: -1 0 1 

####Response variable 
> data$y 
[1] 190.9 436.2 480.3 406.3 212.9 478.7 396.5 349.7 119.7 372.2 411.6 382.8 161.2 424.3 322.8 302.1 302.4 318.2 
[19] 332.8 

A=as.factor(data$A) 
B=as.factor(data$B) 
C=as.factor(data$C) 
D=as.factor(data$D) 



out3=lm(data$y~C+B+A+D) 
fit1=aov(out3) 
summary(fit1) 

> summary(fit1) 
      Df Sum Sq Mean Sq F value Pr(>F) 
C   2 2743 1372 0.170 0.8456 
B   1 26896 26896 3.332 0.0910 . 
A   1 45839 45839 5.679 0.0331 * 
D   1 12928 12928 1.602 0.2279 
Residuals 13 104934 8072 
변수

요약 (FIT1)의 다른 순서와

같은 분산 분석 Df를이 Sum Sq Mean Sq F 값 Pr (> F)
B 2 28199 14100 1.747 0.2129I 단지 2 레벨 (하여 분산 분석을 실시하는 경우 52,314,960,453,210 1 45,839 45,839 5.679 0.0331 * D 1 12,928 12,928 1.602 0.2279
C 1 1,440 1,440 0.178 0.6796
잔차 13 104934 8072

모든 변수에 대해 0을 제외 마지막 3 개의 데이터가 "0"레벨을 기반으로하므로 [1:16] 데이터 만 사용하십시오), 그러면 문제가 해결됩니다. 모든 var하지만 잔차에 대해 1의 Df를 얻습니다.

+0

결과 모델 행렬이 전체 순위가 아니므로 4 가지 요인의 더미 변수 사이에 선형 종속성이 있음을 의미합니다. 계승 설계에 대해 더 자세히 설명해 주시겠습니까? – johansteen

+0

변수의 순서가 다른 완전한 데이터 세트와 또 다른 anova를 추가했습니다. 나는 여러 가지를 시도했지만 첫 번째 변수에 대해서만 Df 2를 계속 유지합니다. – Kane

+0

요인 설계 (예 : 전체 또는 분수 요인 수, 요인 수, 요인 당 수준 수 등)에 대한 자세한 정보를 제공하십시오!어떻게 든 원래의 요인을 더미 변수와 섞어 쓰는 것처럼 보입니다.하지만 계승 설계에 대한 자세한 내용을 알면 알 수 있습니다. – johansteen

답변

0

나는 자유의 정도가 정확하게 계산되지 않는다고 어떻게 생각하고 말하고 가능한지 말할 수 있었습니까? 그러나 때로는 복잡한 것에 대해서만 생각하고 쉬운 것을 잊어 버립니다. 문제가 무엇인지 알아 냈습니다 :

data <- read.table(header=T,text='Runs I A B C D AB E AD BC F G H J K B1 B2  y 
1  1 1 -1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 -1 1 190.9 
2  2 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 -1 -1 436.2 
3  3 1 -1 1 -1 -1 -1 1 1 -1 -1 1 1 1 -1 1 -1 480.3 
4  4 1 1 1 -1 -1 1 -1 -1 -1 -1 1 -1 -1 1 1 1 406.3 
5  5 1 -1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 1 1 -1 212.9 
6  6 1 1 -1 1 -1 -1 1 -1 -1 1 -1 -1 1 -1 1 1 478.7 
7  7 1 -1 1 1 -1 -1 -1 1 1 -1 -1 -1 1 1 -1 1 396.5 
8  8 1 1 1 1 -1 1 1 -1 1 -1 -1 1 -1 -1 -1 -1 349.7 
9  9 1 -1 -1 -1 1 1 1 -1 1 -1 -1 -1 1 1 1 -1 119.7 
10 10 1 1 -1 -1 1 -1 -1 1 1 -1 -1 1 -1 -1 1 1 372.2 
11 11 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 411.6 
12 12 1 1 1 -1 1 1 -1 1 -1 1 -1 -1 1 -1 -1 -1 382.8 
13 13 1 -1 -1 1 1 1 -1 -1 -1 -1 1 1 1 -1 -1 1 161.2 
14 14 1 1 -1 1 1 -1 1 1 -1 -1 1 -1 -1 1 -1 -1 424.3 
15 15 1 -1 1 1 1 -1 -1 -1 1 1 1 -1 -1 -1 1 -1 322.8 
16 16 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 302.1 
17 17 1 0 0 0 0 0 0 0 0 0 0 0 -1 1 0 0 302.4 
18 18 1 0 0 0 0 0 0 0 0 0 0 0 1 -1 0 0 318.2 
19 19 1 0 0 0 0 0 0 0 0 0 0 0 -1 1 0 0 332.8') 

a.dummies <- model.matrix(~A) 
b.dummies <- model.matrix(~B) 
c.dummies <- model.matrix(~C) 
d.dummies <- model.matrix(~D) 


a<-cbind(a.dummies[,-1],b.dummies[,-1]) 
b<-cbind(c.dummies[,-1],d.dummies[,-1]) 
all<-cbind(a,b) 

나는 스스로 하나씩 하나씩 확인하기 위해 인형을 만들기 위해 자유를 택했습니다. 그리고 그 문제가 드러났다. 단순 상관 관계 테이블 :

오호 (모두)

  A0   A1   B0   B1   C0   C1   D0   D1 
A0 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 
A1 -0.3692745 1.0000000 -0.3692745 0.1363636 -0.3692745 0.1363636 -0.3692745 0.1363636 
B0 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 
B1 -0.3692745 0.1363636 -0.3692745 1.0000000 -0.3692745 0.1363636 -0.3692745 0.1363636 
C0 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 
C1 -0.3692745 0.1363636 -0.3692745 0.1363636 -0.3692745 1.0000000 -0.3692745 0.1363636 
D0 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 1.0000000 -0.3692745 
D1 -0.3692745 0.1363636 -0.3692745 0.1363636 -0.3692745 0.1363636 -0.3692745 1.0000000 

다음은 LM 기능이 작동하는 방법 (그리고 더 많은 모델 함수) 정확하게의 상관 관계를 가진 두 개의 변수 중 하나를 제거하는 것입니다 1 즉 중복 열을 제거하십시오. 귀하의 경우 C0은 A0, B0 및 D0에 대해 1의 상관 관계를 가지므로 모델에서 3이 제거되어 A, B 및 D에 대한 요인 레벨의 수를 2로 효과적으로 줄입니다. 따라서 자유도는 1 A, B, D에 대해서

미스테리 해결!

+0

그리고 당신이 사이트에 처음 온 사람이라면, 한 가지 대답만으로도 귀하의 질문을 해결할 수 있다면 (답변 옆에있는 체크 표시를 클릭하여) 허용으로 표시하여 같은 문제가 앞으로 도움이 될 수도 있습니다. 답변을 수락하면 귀하와 답변자 모두에게 평판이 부여됩니다. 명성을 얻으면 권한을 잠금으로써 사이트를보다 잘 활용할 수 있습니다. 나는 항상 이것을 새로운 사용자에게 말하고있다 :). SO에 오신 것을 환영합니다! 추신 (대답을 수락하는 것은 강제적이지 않습니다) – LyzandeR

+0

고맙습니다. 그러나 나는 아직도 문제가 있다고 생각합니다. 나는 3 개의 복제본으로 19 개의 모든 데이터 포인트로 anova를해야했습니다. 이제 나는 R을 사용하는 것보다 통계를 정확하게 이해하지 못할 것이라고 생각합니다. 대답해야 할 정확한 질문은 다음과 같습니다. ANOVA를 사용하여 비활성 요인없이 모델을 추정합니다. 이 단계에서 중심점을 포함시킵니다. 이 모델에서 ANOVA F test를 사용하여 유의 한 효과를 확인하십시오. 정규 확률 플롯을 포함하여 나머지의 진단 플롯을 생성해야합니다. – Kane

+0

그건 완전히 다른 질문입니다. 통계에 대해서만 해당되는 경우 SO 또는 Cross Validated에 대한 별도 질문으로 요청할 수 있습니다. 위의 대답이 초기 질문에 답변 한 경우, 자유도에 관해서는 같은 문제를 가진 미래의 사람들을 도울 수 있도록 자유롭게 생각하십시오. 그렇지 않으면 대답을 왜 싫어했는지 설명하십시오. – LyzandeR