값의 샘플링 확률이 다른 경우 중간 값을 계산하는 가장 빠른 방법은 무엇입니까?

다음 장난감 예를 고려해보십시오.값의 샘플링 확률이 다른 경우 중간 값을 계산하는 가장 빠른 방법은 무엇입니까?

교사는 수업 시간에 학생의 중간 높이를 계산하려고합니다. 그러나 모든 학생들이 매일 수업에 나타나지는 않으므로 주어진 날에는 계산 된 중간 높이가 다를 수 있습니다. 수업을들을 확률과 높이는 아래 표에 나와 있습니다. 이 정보가 주어지면 그는 예상 중간 값을 추정 할 수 있습니다.

>set.seed(123) 
>data1 <- data.frame(Student=c(LETTERS[1:10]), Height.cm=sort(rnorm(n=10, mean=140, sd=10)), Prob.in.class=c(1,.75,1,.5,1,1,1,.25,1,.5)) 

>data1 

    Student Height.cm Prob.in.class 
1  A 127.3494   1.00 
2  B 133.1315   0.75 
3  C 134.3952   1.00 
4  D 135.5434   0.50 
5  E 137.6982   1.00 
6  F 140.7051   1.00 
7  G 141.2929   1.00 
8  H 144.6092   0.25 
9  I 155.5871   1.00 
10  J 157.1506   0.50

이 같은 분포의 평균 (또는 임의의 분위수)을 추정하기 위해 R에서 가장 빠른 방법은 무엇입니까?

실제로 계산하려면 수만 점 (및 관련 확률)이있는 수백 개의 다른 벡터에 대한 중간 값과 임의의 분위수를 추정해야합니다. 이 suggestion을 보았습니다. 여기서 확률 밀도 함수는 사다리꼴 방법을 사용하여 계산되었지만 이것이 최선의 방법인지는 확실하지 않습니다.

제공 할 수있는 조언은 크게 감사하겠습니다. 감사! 이 같은

출처

2017-04-17 Ricola

아니, 내 생각이 (가중 분위수) 아래 그림과 같이 가중치 벡터에주의해야 괜찮습니다. Googling "weighted quantile r", https://artax.karlin.mff.cuni.cz/r-help/library/reldist/html/wtd.quantile.html 또는 http : //artax.karlin.mff.cuni를 참조하십시오. .cz/r-help/library/PSCBS/html/weightedQuantile.html 또는 https://github.com/hadley/bigvis/blob/master/R/weighted-stats.r? 당신은 이러한 솔루션의 일부를 벤치마킹 할 수 있습니다 ... –

@BenBolker @ 올바른 방향으로 나를 가리켜 주셔서 감사합니다. 'PSCBS :: weightedQuantile'과'reldis :: wtd.quantile'은'Hmisc :: wtd.quantile'을 사용하기 때문에 원본을 고수 할 것입니다. – Ricola

뭔가 작동하지만

#your data 
set.seed(123) 
data1 <- data.frame(Student=c(LETTERS[1:10]), Height.cm=sort(rnorm(n=10, mean=140, sd=10)), Prob.in.class=c(1,.75,1,.5,1,1,1,.25,1,.5)) 

#Test a known ... 
data2 <- c(1,1,1,1,1,2,3,3,3,3,3) # median clearly 2 
median(data2) #yields 2, yah... 

#using weights... median should be 2 if function working right 
data3 <- data.frame(Student=c(LETTERS[1:3]), Height.cm=c(1,2,3), Prob.in.class=c(5/12,2/12,5/12)) 
reldist::wtd.quantile(data3$Height.cm, q = .5, 
        weight = data3$Prob.in.class) # yields 3, not the right answer 

#the wtd.quantile function does not like probabilities. 
#multiply the weights to something greater than 1 seems to work. 
reldist::wtd.quantile(data3$Height.cm, q = .5, weight = data3$Prob.in.class*100) # yields 2, the right answer

출처

2017-04-17 20:54:23 Kgrey

값의 샘플링 확률이 다른 경우 중간 값을 계산하는 가장 빠른 방법은 무엇입니까?

답변

관련 문제