2013-04-08 5 views
2

데이터 세트가 벡터에 있습니다. 데이터의 히스토그램을 그려 보면 (세 심하게 검사하여) 데이터가 세 분포의 합으로 분산된다는 것을 알 수 있습니다.matlab에있는 분포를 기반으로 데이터를 선택하십시오.

하나의 정규 분포가 분산 x_1을 중심으로 분산 s_1; 하나의 정규 분포가 분산을 갖는 x_2를 중심으로합니다. 일단 로그 정규 분포.

내 데이터는 분명히 '실제'데이터의 하위 집합입니다.

내가 원하는 것은 내 데이터에서 무작위로 하위 집합을 가져 와서 그 결과 하위 집합이 원본 데이터의 합리적인 대표 샘플임을 확인하는 것입니다.

나는 쉽게 이것을 matlab에 가능한 한 쉽게하고 싶지만 통계와 matlab에 새로운 것이므로 어디서부터 시작할 지 확신 할 수 없다.

어떤 도움 : 당신이 (당신이 자신의 매개 변수를 추정 할 수 의미에서) 3 개 분포의 각각을 식별 할 수있는 경우

+0

아마도 [Cross Validated] (http://stats.stackexchange.com/)에 속해 있습니까? – Phonon

+1

"합리적인 대표 샘플인지"란 무엇을 의미합니까? 데이터 세트에서 무작위로 샘플링 한 경우 어떤 방식으로 "합리적으로 대표적인"것이 아닌가? (수사학적인 질문이 아닙니다. 나는 당신이 무엇을 요구하고 있는지 확신 할 수 있도록 당신이 대답 해 주길 바랍니다!) –

+0

나는 @ChrisTaylor에 동의합니다. 하위 집합이 충분히 큰 경우 일반적으로 배포가 동일하다고 가정 할 수 있습니다. 'randperm' 함수를 적용하여 대체없이 데이터 서브 세트를 무작위로 선택할 수 있습니다. – yuk

답변

0

하는 하나의 접근 방식은 데이터의 임의의 부분 집합을 선택하고 다음 수 주셔서 감사합니다 각 분포에 대한 매개 변수를 추정하고 원본 분포의 매개 변수에 충분히 근접한 지 확인하십시오 ("닫기"에 대한 자신 만의 정의에 따라). 이 프로세스를 여러 번 반복하고 무작위 부분 집합 크기가 주어지면 평균 차이를 관찰해야합니다.