데이터 세트의 각 사람과 관련된 메트릭을 계산해야하는 데이터 세트가 있습니다. 예를 들어, 나는 내가 무엇을해야하는 등 각 사람 John, Jane, Suse
에 대한 등등과 같은 Time Since Last Task
, Average Earnings
, Total Earnings
, Total Tasks Done
및 메트릭을 계산이다, 그래서이Pandas의 다른 열에서 특정 열에 대한 메트릭을 계산하는 방법은 무엇입니까?
id name age task_date task_venue money_earned
1 John 25 2016-05-01 A 100
2 Jane 28 2016-05-12 A 120
1 John 25 2016-05-03 B 150
3 Suse 21 2016-05-30 B 200
...
과 같은 데이터로 dataframe 있습니다.
실제 데이터 세트는 큽니다 (약 1M 행이며 열이 50 ~ 75K입니다). 그러나 이것은 본질적으로 내가해야 할 일을 설명합니다.
이 데이터 프레임을 가져 와서 계산할 때 가장 효율적인 방법은 무엇입니까? 나는 판다 함수를 사용하는 것을 선호하지만 순수한 파이썬도 다른 데이터 프레임에 결과를 저장할 수 있다면 작동 할 것입니다.
답변 해 주셔서 감사합니다. 이것은 확실히 올바른 방향으로 나를 가리 킵니다. 한 가지 더하기를 원한다면 정규식, 합계, 길이 대신에 하나 이상의 열을 계산에 사용하는 사용자 지정 함수가 필요한 경우 어떻게하면 될까요? 필자는 본질적으로 한 번에 각 메트릭을 계산하고 결국 모든 것을 병합하려고합니다. – sfactor
사용자 지정 함수 추가 - 그룹 당 최소 datetime에 3 일이 추가되었습니다. – jezrael