2017-05-01 5 views
0

저는 데이터 과학에 익숙하지 않습니다. 간단한 해골 팩터 플롯에 관한 질문이 있습니다. 대표하는 선분은 무엇입니까?해골 팩터 플롯의 근원 함수는 무엇입니까

여기가 내 테스트입니다.

import pandas as pd 
import seaborn as sns 

x3 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5] 
y3 = [0, 1, 1, 1, 0, 3, 1, 0, 1, 1, 3, 2, 3, 2, 3, 3, 2, 3, 2, 2] 
data = {'x': x3, 'y': y3} 
test3 = pd.DataFrame(data) 
sns.factorplot(x='Pclass', y='Survived', data=test3) 

및 결과

enter image description here 간단한 시험에 의해

되고, I는 그래프의 각 지점은 동일한 값 (X)의 모든 값에 대한 Y의 평균 (EXP)를 의미 알고 . 예를 들어, x = 1 인 경우 (1, 0), (1,3), (1,3) 및 (1, 3)이므로 평균은 (0 + 3 + 3 + 3)/4 = 2.25. 그러나 x = 1의 선분이 0.75에서 3.0 사이 인 이유는 무엇입니까? 왜 [0.0, 3.0]이 아닌가요?

나는 factorplot 소스 또는 유용한 설명이나 온라인으로 좋은 결과를 얻으려고 노력했습니다.

아무도 도와 줄 수 있습니까, 고맙습니다.

답변

1

github repo 맨 위에있는 "이 저장소 검색"검색 창을 사용하여 조사했습니다. "factorplot"을 검색

는 "" ". 표시 점 추정과 바 신뢰 구간을" ""문서화 문자열시킨, _BarPlotter(_CategoricalStatPlotter)에 저를지도 한, seaborn/categorical.pyclass _CategoricalPlotter(object)를 알려준, 그리고 __init__self.estimate_statistic(estimator, ci, n_boot)이 포함되어 있습니다.

estimate_statistic(self, estimator, ci, n_boot)의 함수 정의는 class _CategoricalStatPlotter(_CategoricalPlotter)에 있습니다 (여전히 categorical.py 파일에 있음). 이 빈 목록 confint (즉 신뢰 구간)을 초기화하고, 가득 :

boots = bootstrap(stat_data, func=estimator, 
             n_boot=n_boot, 
             units=unit_data) 
confint.append(utils.ci(boots, ci)) 

그래서 당신이 언급 한 수직 오차 막대가 bootstrapped confidence intervals이다.