여러 임의 변수의 분포를 사전 계산하려고합니다. 특히 이러한 임의 변수는 게놈의 위치에서 계산 된 함수의 결과이므로 각각에 대해 10^8 또는 10^9 값의 순서가 있습니다. 함수는 꽤 매끄 럽기 때문에 매 2/10/100마다 평가하여 많은 정확도를 잃을 것이라고 생각지 않습니다. 기본 또는 그렇게하지만, 많은 수의 샘플이있을 것입니다. 제 계획은 각 함수에 대한 quantile 테이블 (어쩌면 백분위 수)을 미리 계산하고 모든 실행에서 이러한 분포 통계를 계산할 필요가 없도록하기 위해 내 메인 프로그램의 실행에서이를 참조하는 것입니다.효율적인 경험적 CDF 계산/저장
그러나 저는 이것을 어떻게 쉽게 할 수 있는지 보지 못합니다 : 저장, 정렬 및 10^9 수레 배열 축소가 실제로 가능하지는 않지만 다른 방법은 생각할 수 없습니다 배포에 관한 정보를 잃어 버린다. 전체를 메모리에 저장할 필요가없는 샘플 분배의 quantile을 측정하는 방법이 있습니까?
http : //stats.stackexchange.com /에 더 많은 행운이있을 것이라고 생각합니다 ... – katrielalex
몇 개의 변수가 있습니까? 함수가 얼마나 "부드럽습니까?" 보간에 로컬 다항식을 사용할 수 있습니까? –
플롯을 게시 할 수 있습니까? –