2017-12-07 18 views
0

pandas.describe() 함수는을 제외한 데이터 집합을 요약하는 설명 통계를 생성합니다. 그러나 여기에서 제외 란 총 개수 (즉, 변수의 행)가 다양하거나 고정되어 있음을 의미합니까?pandas.decribe()는 누락 된 값 행을 제외합니까?

예를 들어, 나는 mean은 누락 된 값으로 안양에 대한 describe()을 사용하여 계산 :

varA 
1 
1 
1 
1 
NaN 

은 평균 = 4/5 또는 여기에 4/4인가?

다른 결과는 describe에 어떻게 적용됩니까? 예를 들어, 표준 편차, 4 분위수?

감사합니다.

+0

이 왜'4/5' 것 의미 = 1 여기 – Wen

+0

? 다섯 번째 값이 0이면 의미가 있습니다. 누락 된 값을 무시하므로 * 결과는'4/4'입니다. 모든 작업에 대해 동일합니다. – ayhan

답변

1

지적했듯이 현재 0.21 릴리스에서는 pandas.DataFrame.describe()가 제공하는 모든 요약 통계에서 NaN 값이 제외됩니다. NaN이와

:

data_with_nan = list(range(20)) + [np.NaN]*20 
df = pd.DataFrame(data=data_with_nan, columns=['col1']) 
df.describe() 
 
      col1 
count 20.00000 
mean 9.50000 
std  5.91608 
min  0.00000 
25%  4.75000 
50%  9.50000 
75% 14.25000 
max 19.00000

없이 : 당신이 경우

data_without_nan = list(range(20)) 
df = pd.DataFrame(data=data_without_nan, columns=['col1']) 
df.describe() 
 
      col1 
count 20.00000 
mean 9.50000 
std  5.91608 
min  0.00000 
25%  4.75000 
50%  9.50000 
75% 14.25000 
max 19.00000
+0

아마도 이전/버그가있는 버전을 사용하고있을 것입니다. 같은 방식으로 4 분위수를 계산합니다. – ayhan

+0

감사합니다. 그것은 0.18이었다. 0.21의 정보로 업데이트하겠습니다. –