2012-05-16 3 views
1

알 수없는 분포에서 나온 실제 값 배열 인 X을 정렬했습니다. 이 데이터에 대한 박스 플롯을 그려야합니다. min, Q1, median, Q3max : 간단한 경우 주어진 데이터에 대한 드로잉 박스 플롯의 알고리즘

, 나는 다섯 개 값을 알 필요가있다.

특히, min = X[0], max = X[length(X)-1] 및 가능하게는 median = X[ceil(length(X)/2)]. 하지만 낮은 분위 인 Q1Q3을 어떻게 결정할 지 궁금합니다. 나는 그 결과 다음과 같은 구해야

내가 X = [1,2,4]는 MATLAB을 사용하여 플롯

:

enter image description here

Q1 = 1.25Q3 = 3.5을 구하는 방법에 약간의 마법이 것 저 것 같다,하지만 난 몰라 무엇을 마술이있다. 아무도이 경험이 있습니까?

답변

1

상자 플롯의 원래 정의 (John Tukey 조회)로 이동하면 중간 값 (즉, 데이터 세트 1, 2, 4에서 2)의 중앙값을 사용합니다. 끝점은 최소 및 최대입니다.

상자의 상단과 하단이 사 분위에 의해 정확하게 정의되지 않고 "경첩"이라고합니다. 경첩은 데이터의 위아래 반의 중앙값입니다. 홀수의 관측치가있는 경우 전체 세트의 중앙값이 두 경첩을 결정하는 데 사용됩니다. 하부 경첩은 (1, 2) 또는 1.5 중위 수입니다. 상단 경첩은 (2,4) 또는 3의 중간 값입니다.

상자 플롯의 사 분위수에 대한 정의는 실제로 수십 가지입니다 (Wikipedia : "4 분위수 값 선택에 대한 일반적인 동의는 없습니다"). MatLab의 상자 플롯을 합리화하려면 해당 문서를 확인해야합니다. 그렇지 않으면 결과를 찾는 방법을 찾기 위해 머리를 Google에 노출시킬 수 있습니다.

Minitab은 데이터 세트의 경첩에 대해 1과 4를 제공합니다. Excel의 PERCENTILE 함수는 1.5와 3을 제공합니다.이 경우 부수적으로 Tukey의 알고리즘과 일치합니다.

+0

귀하의 깊은 대답을 주셔서 감사합니다 @ 존 펠티어! 나는 MATLAB이 하부 및 상부 힌지를 결정하는 특정 솔루션을 가지고 있음을 알고 있습니다. 나는 MATLAB의 솔루션을 모방하려고 노력할 것입니다. 소량의 데이터에는 좋았 기 때문에 MATLAB의 솔루션을 모방하려고 시도 할 것이지만, 유일한 해결책은 아니라는 것을 이해합니다. 어쨌든 알고리즘이 어떻게 일반적으로 작동하는지 이해하는 데 많은 도움을 받았습니다. 다시 한번 감사드립니다! – Tregoreg

1

중앙값은 데이터를 두 부분으로 나눕니다. 전반의 중앙값 = Q1, 후반의 중간 값 = Q3.

더 많은 정보를 원하시면 : matlab에 상자 그림에 http://www.purplemath.com/modules/boxwhisk.htm


참고가 다음 Q1과 Q3는 어쩌면 매트랩에서 다른 방식으로 계산, 나는 테스트 데이터의 큰 양 시도 것입니다. 내 방법으로, Q1이 1이어야하며, Q3 같아야 4.


EDIT :

매트랩 수행 가능한 계산 중앙값 전반 제 번호의 차이이며, 그것의 1/4을 가져라. 첫 번째 숫자에 추가하여 Q1을 얻으십시오. 동일합니다 (대략적으로) Q3에 적용됩니다. 중간 값과 최대 값의 차이를 가져와 가장 높은 값에서 1/4을 뺍니다. 그것이 Q3입니다.

+0

예, 이것은 정확히 내가 기대했던 것입니다 (통계에 몇 가지 기본 배경이 있습니다). 그러나 응용 프로그램에서이 작은 양의 데이터로 상자 모양이 합리적으로 작동해야합니다.새로운 결과가 지속적으로 나타날 때마다 음모에 대한 동적 인 업데이트가있을 것입니다. 그러므로 나는 초기 단계에서 "보기 좋게"할 음모가 필요하다. 그래서 MATLAB에서 box plot을 모방하고 싶습니다. – Tregoreg

+0

내 편집 읽기. 어떤 증거에 근거하지 않고, 당신이 얻는 숫자에 대한 가능한 설명. MatLab이 당신을 위해 무엇을 생산하는지 알아보기 위해 더 많은 수의 트리플을 시도해 볼 것을 제안합니다. – Hidde

+0

나는 더 많은 실험을했고 MATLAB 알고리즘은 실제로 마술처럼 보인다. X = [1,3,4,5]의 경우 Q1 = 2, 중앙값 = 3.5, Q2 = 4.5를 표시합니다. 나는 그것을 얻지 않는다. 미리 정의 된 배포판이나 그런 식으로 데이터를 맞추는 것 같습니다. 아마도 저는 이전에 제안했던 것처럼 간단하면서도 작업 방식으로 구현하도록 선고 받았습니다. – Tregoreg