2016-06-03 3 views
0

나는 판다, 주피터 노트북 및 파이썬을 사용하고 있습니다. 은 내가 dataframe 나는 다음과 같은 질문 "각 유형에 의해 영향을받은 호주에있는 차의 수"대답 상자 플롯을 사용하는 방법을 알고 싶습니다Boxplot은 판다에서 복수 groupby를 사용해야합니다.

Cars,Country,Type 
1564,Australia,Stolen 
200,Australia,Stolen 
579,Australia,Stolen 
156,Japan,Lost 
900,Africa,Burnt 
2000,USA,Stolen 
1000,Indonesia,Stolen 
900,Australia,Lost 
798,Australia,Lost 
128,Australia,Lost 
200,Australia,Burnt 
56,Australia,Burnt 
348,Australia,Burnt 
1246,USA,Burnt 

로 다음과 같은 데이터 집합을 가지고있다. 그래서 기본적으로, 나는 호주에서 영향을받는 차량의 수를 보여주는 3 가지 박스 플롯 (각 유형별)이 있어야합니다.

실제 데이터 집합의 하위 집합입니다.

답변

2

에만 행이 같이 열 "Type"에 의해 열 "Country" 및 그룹을에서 "Australia"에 해당하는 선택할 수 있습니다

from StringIO import StringIO 
import pandas as pd 

text_string = StringIO(
""" 
Cars,Country,Type,Score 
1564,Australia,Stolen,1 
200,Australia,Stolen,2 
579,Australia,Stolen,3 
156,Japan,Lost,4 
900,Africa,Burnt,5 
2000,USA,Stolen,6 
1000,Indonesia,Stolen,7 
900,Australia,Lost,8 
798,Australia,Lost,9 
128,Australia,Lost,10 
200,Australia,Burnt,11 
56,Australia,Burnt,12 
348,Australia,Burnt,13 
1246,USA,Burnt,14 
""") 

df = pd.read_csv(text_string, sep = ",") 
# Specifically checks in column name "Cars" 
group = df.loc[df['Country'] == 'Australia'].boxplot(column = 'Cars', by = 'Type') 

Image

+0

어떻게 Y 축이 동일하게 유지되도록 또는 것 데이터 세트에 숫자가 들어있는 다른 열이 있으면 Cars에 중점을 둡니다. 데이터 프레임은 다음과 같습니다 : Score, Car, Country, Type Score는 Car와 매우 비슷한 숫자입니다 – Timetraveller

+0

@Timetraveller : Cars 열에 특별히 답하는 편집 된 답변을 참조하십시오. –

+1

고마워요. 그게 내가 한 일이야. – Timetraveller