2011-03-27 3 views
1

샘플 배열에서 잘 분리 된 피크가있는 2 개의 정규 분포가 혼합 된 것으로 예상되는 명확한 이분법 분포를 특성화하기 위해 어떤 알고리즘을 사용할 수 있습니까? 2를 내뱉는 것은 2 표준 편차와 견고성 추정의 일종이 원하는 결과가된다는 것을 의미합니다.바이 모달 분포 특성화 알고리즘?

기존의 C 또는 Python 라이브러리 또는 통계 패키지가 아닌 프로그래밍 언어 (임베디드 컨트롤러 용)로 구현할 수있는 알고리즘에 관심이 있습니다.

두 모달 평균이 약 3 : 1 + - 50 %의 비율로 다르며 표준 편차가 피크 분리에 비해 "작다"는 것이 더 쉬울까요? 한 쌍의 피크는 100 : 1 범위의 어디에서든지?

답변

2

두 가지 가능성이 있습니다. 하나는 bimodal이라는 단일 분포를 가졌습니다. 다른 하나는 두 개의 서로 다른 분포에서 데이터를 관찰하고 있다는 것입니다. 나중에 추정 할 수있는 일반적인 방법은 놀라 울 것도없이 mixture model이라고하는 것입니다.

예측에 대한 접근 방식은 문제에 대한 베이지안 관점을 취하려는 경우 최대 가능성 접근법을 사용하거나 마르코프 체인 몬테카를로 방법을 사용하는 것입니다. 당신의 가정을 조금 더 자세하게 말하면, 나는 당신이 시도하고 최대화하고자하는 목적 함수를 찾아내는 데 도움이 될 것입니다.

이러한 유형의 모델은 계산 집약적 일 수 있으므로 내장형 컨트롤러에서 전체 통계 방법을 시도하고 싶지는 않습니다. 해킹이 더 적합 할 수 있습니다. 피크가 실제로 잘 분리되어 있다면 두 피크를 식별하고 데이터를 분리하고 각 분포에 대한 평균 및 표준 편차를 독립적으로 추정하는 것이 더 쉽습니다.

+0

혼합 모델이 내 예상 모델에 맞는 것 같습니다. 그리고 "해킹"은 마이크로 컨트롤러의 기능 제약에 더 잘 부합 할 수 있습니다. 하지만 피크 식별 접근법에 대한 좋은 알고리즘은 무엇입니까? 그리고이 접근법이 통계 접근법의 결과와 얼마나 다를 수 있습니까? (예 : 얼마나 견고하고 정확한지,이 해킹은 비교적 큰 것일까 요?) – hotpaw2

+1

상당히 넓은 대역폭의 데이터에 대해 커널 밀도를 추정 한 다음 두 가지 가장 큰 "가장 길게 증가하는 부분 시퀀스"를 찾으려고합니다. 각 하위 시퀀스의 마지막 데이터 요소는 예상되는 피크의 좋은 예상치입니다. 분포가 대칭이라면, 가장 적은 수의 관측치가있는 피크가 같은 양의 점을 가지기를 원할 때 데이터 집합을 분리 할 위치를 파악하는 데 도움이됩니다. – Samsdram