2017-10-20 10 views
0

나는 단지 판다를 집어 들었다. 나는 다음과 같은 dataframe 있습니다,팬더를 사용하여 데이터 프레임의 최소, 최대, 평균, 중간, ... 등의 새로운 열을 어떻게 생성 할 수 있습니까?

나는 분을 생성 할
import pandas as pd 
import random 
import numpy as np 

df= pd.DataFrame({"YEAR": np.random.choice([2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017], 20, replace=True), 
        "MONTH": np.random.choice([_ for _ in range(1, 13)], 20, replace=True), 
        "TYPE": np.random.choice(['WEEKDAY', 'WEEKEND'], 20, replace=True), 
        "SOUR": np.random.choice(['SOUR1', 'SOUR2', 'SOUR3', 'SOUR4'], 20, replace=True), 
        "DEST": np.random.choice(['DEST1', 'DEST2', 'DEST3', 'DEST4','DEST5', 'DEST6', 'DEST7', 'DEST8'], 20, replace=True), 
        "PRICE": np.random.choice([_ for _ in range(100, 999)], 20, replace=True)}) 
print(df) 

이 최대가, 평균, 중앙값 : 나는 아래의 코드를 삽입 한

 DEST MONTH PRICE SOUR  TYPE YEAR 
0 DEST7  8 159 SOUR4 WEEKEND 2015 
1 DEST2  9 391 SOUR1 WEEKEND 2010 
2 DEST5  5 612 SOUR1 WEEKDAY 2013 
3 DEST4  10 836 SOUR4 WEEKEND 2013 
4 DEST4  4 689 SOUR3 WEEKEND 2013 
5 DEST7  3 862 SOUR4 WEEKDAY 2014 
6 DEST4  5 483 SOUR4 WEEKEND 2016 
7 DEST2  2 489 SOUR3 WEEKEND 2017 
8 DEST4  7 207 SOUR1 WEEKDAY 2012 
9 DEST3  11 374 SOUR2 WEEKDAY 2015 
10 DEST1  2 959 SOUR2 WEEKEND 2017 
11 DEST5  10 969 SOUR3 WEEKDAY 2011 
12 DEST8  3 645 SOUR4 WEEKEND 2013 
13 DEST6  7 258 SOUR4 WEEKEND 2013 
14 DEST8  5 955 SOUR4 WEEKDAY 2010 
15 DEST1  3 568 SOUR4 WEEKEND 2013 
16 DEST5  5 601 SOUR4 WEEKDAY 2016 
17 DEST1  6 159 SOUR3 WEEKDAY 2011 
18 DEST3  11 322 SOUR4 WEEKDAY 2013 
19 DEST2  10 103 SOUR2 WEEKDAY 2012 

을 자신의 임의 dataframe을 생성 주시기 ... 새 열로 해당 열을 데이터 프레임에 추가합니다. 이것은 내가 시도 집계 코드 :

aggregation={ 
     "PRICE": 
    { 
     "MIN": lambda x: x.min(skipna=True), 
     "MAX":lambda x: x.max(skipna=True), 
     "MEDIAN":lambda x: x.median(skipna=True), 
     "MEAN":lambda x:x.mean(skipna=True) 
    } 
} 

df1=df.groupby(["YEAR","MONTH","TYPE","SOUR","DEST"]).agg(aggregation).reset_index() 
df1 

그러나 출력이 어떤 분을 계산하지 않는, 최대, 평균은 전혀 의미 :

YEAR MONTH  TYPE SOUR DEST PRICE     
             MIN MAX MEDIAN MEAN 
0 2010  5 WEEKDAY SOUR4 DEST8 955 955 955 955 
1 2010  9 WEEKEND SOUR1 DEST2 391 391 391 391 
2 2011  6 WEEKDAY SOUR3 DEST1 159 159 159 159 
3 2011 10 WEEKDAY SOUR3 DEST5 969 969 969 969 
4 2012  7 WEEKDAY SOUR1 DEST4 207 207 207 207 
5 2012 10 WEEKDAY SOUR2 DEST2 103 103 103 103 
6 2013  3 WEEKEND SOUR4 DEST1 568 568 568 568 
7 2013  3 WEEKEND SOUR4 DEST8 645 645 645 645 
8 2013  4 WEEKEND SOUR3 DEST4 689 689 689 689 
9 2013  5 WEEKDAY SOUR1 DEST5 612 612 612 612 
10 2013  7 WEEKEND SOUR4 DEST6 258 258 258 258 
11 2013 10 WEEKEND SOUR4 DEST4 836 836 836 836 
12 2013 11 WEEKDAY SOUR4 DEST3 322 322 322 322 
13 2014  3 WEEKDAY SOUR4 DEST7 862 862 862 862 
14 2015  8 WEEKEND SOUR4 DEST7 159 159 159 159 
15 2015 11 WEEKDAY SOUR2 DEST3 374 374 374 374 
16 2016  5 WEEKDAY SOUR4 DEST5 601 601 601 601 
17 2016  5 WEEKEND SOUR4 DEST4 483 483 483 483 
18 2017  2 WEEKEND SOUR2 DEST1 959 959 959 959 
19 2017  2 WEEKEND SOUR3 DEST2 489 489 489 489 

을 내가 올바른을 제공하기 위해 파이썬 코드를 수정할 수있는 방법 산출? 감사.

또 다른 질문으로, 평균 가격 그룹을 TYPE, SOUR, DEST (월 또는 년 포함하지 않음)로만 계산하는 다른 열을 추가하려면 TYPE 그룹을 유지할 경우 생성 방법, SOUR, DEST, MONTH, YEAR? 내 예상 출력 :

YEAR MONTH  TYPE SOUR DEST PRICE     
             MIN MAX MEDIAN MEAN AVG 
0 2010  5 WEEKDAY SOUR4 DEST8 ... ... ... ... 500 
1 2010  9 WEEKEND SOUR1 DEST2 ... ... ... ... 
2 2011  6 WEEKDAY SOUR3 DEST5 ... ... ... ... 720 
3 2011 10 WEEKDAY SOUR3 DEST5 ... ... ... ... 720 
4 2012  7 WEEKDAY SOUR1 DEST4 ... ... ... ... 
5 2012 10 WEEKDAY SOUR2 DEST2 ... ... ... ... 
6 2013  3 WEEKEND SOUR4 DEST1 ... ... ... ... 
7 2013  3 WEEKDAY SOUR4 DEST8 ... ... ... ... 500 
8 2013  4 WEEKEND SOUR3 DEST4 ... ... ... ... 
9 2013  5 WEEKDAY SOUR1 DEST5 ... ... ... ... 
10 2013  7 WEEKEND SOUR4 DEST6 ... ... ... ... 
... 
+1

모든 열을 그룹으로 묶으시겠습니까? 최소/최대/중간/평균은 실제로 계산하려고합니까? 이러한 모든 항목을 기준으로 그룹을 만들면 그룹당 PRICE 값이 하나 밖에 없으므로 모든 측정 값은 동일합니다. – jack6e

+0

오 ... 네가 맞아. 내 표본이 너무 작아서 각 그룹에 단 하나의 행만 포함되어있어 ... 고마워! 두 번째 질문에 대한 답을 알고 있습니까? –

답변

1

코드는 실제로 최소, 최대, 중간 및 평균을 계산합니다. 그러나 5 열에 groupby를 사용하기 때문에. 단 20 개의 행을 가진 5 개의 모든 열에 대해 동일한 값을 포함하는 2 개의 행의 가능성은 거의 없습니다.

데이터 양을 늘리면 groupby가 실제로 행을 그룹화하거나 그룹별로 적은 수의 열을 한꺼번에 그룹화합니다.

groupby에 대해 3 개의 열만 사용하여 AVG (평균) 열을 추가하려면 첫 번째 DataFrame에서 groupby를 별도로 수행하고 세 열에 병합하십시오.

df1=df.groupby(["YEAR","MONTH","TYPE","SOUR","DEST"]).agg(aggregation).reset_index() 
df2=df.groupby(["TYPE", "SOUR", "DEST"]).agg({"PRICE":{ "avg" : "mean"} }).reset_index() 
df3= pd.merge(df1, df2, on=["TYPE", "SOUR", "DEST"], how='left') 
+0

내가 찾으려는 답변입니다. Prikkel 정말 고마워! –