2016-07-26 17 views
2

R을 사용하여 2 진 변수의 표준 오류를 계산하는 방법은 무엇입니까? 여러 참가자가 여러 조건에서 작업을 수행하고 있습니다. 출력은 0 (올바르지 않음) 또는 1 (올 Y 른) 일 수 있습니다. 나는 다음 방법으로 정답과 표준 오차 (SE)의 평균 비율을 계산 한 :표준 오류 2 진 변수 R

mean<-tapply(dataRsp$Accuracy, dataRsp$Condition, FUN=mean) 

SE<- with(dataRsp, tapply(Accuracy, Condition, sd)/sqrt(summary(dataRsp$Condition))) 

을하지만 SE는 거의 정확한 수 없다는 extremelly 꽉입니다. 누군가가 나에게 몇 가지 아이디어를 줄 수 있는가? 나는 다음은,

sqrt(p.est*(1-p.est)/n) 

해결책이 될 수 있음을 발견 ...하지만 난 가정 R.

답변

2

에 구현하는 방법을 모르는 변수 X에 대한 2 개의 결과 (0/1) 만 있고 성공 (1)의 기회는 p과 같다고 가정합니다. 즉, X 다음에 Bernoulli (p) 배포판이옵니다.

평균과 분산

이어서 지금 p.est, 의해 P 변경 N는 샘플 크기 P피의 * (1-P)/N 의해 주어진다 p.est은 정답의 비율입니다.

그래서 당신은 실패의 성공을위한 binary 1과 0이라는 변수가있는 경우 :

p.est <- mean(binary) 
variance <- (p.est*(1-p.est))/nrow(binary) 
std.dev <- sqrt(variance) 

편집 :

당신은 또한 발견했다 카운터 직관적이었다 아주 작은 SE의, . 분산에 대한 수식을 자세히 살펴 보겠습니다. p * (1-p)/n. 분자 (p * (1-p))가 취할 수있는 최대 값은 0.25, 즉 p = 0.5 일 때만 걸릴 수 있습니다. 이 값은 n (관측 수)로 나누기 때문에이 값은 감소 할 수 있습니다. p = 0.5n = 100이라고 가정하면 분산은 0.0025입니다. SE를 찾으려면이 예에서 0.05의 SE를 제공하는 제곱근을 취합니다. 더 많은 관찰 결과가있는 경우 (예 : > 100) 분산과 SE는 더 많이 감소합니다 (직관력 : 더 많은 데이터 => 더 확실성 => 작은 분산/SE).

variance/SE 공식이 이렇게 설명되어있는 경우 작은 SE를 사용하는 것이 이상한가요?

+0

도움 주셔서 감사합니다. 코드 워드는 잘 들지만, 0.006의 값을 얻습니다. 예를 들어 평균 정확도가 85 % 인 경우 예상 SE는 훨씬 커야합니다. 근본적인 이유가 무엇인지 확실하지 않습니다. – user3596790

+0

마르셀 감사합니다. 이것은 매우 분명 해졌다. (p * (1-p)) = 0.13 n = 3290이면 분산은 매우 낮으므로 SE = 0.006을 얻을 수 있습니다. 나는 그것이 반동 적이지만 큰 n에 참석하는 것이 합리적일지도 모른다. 고맙습니다. – user3596790

+0

@ user3596790 도와 드리겠습니다! 질문에 대한 답변이 충분하다면 위쪽/아래쪽 화살표 아래의 확인란을 선택하십시오. – Marcel10