나는 야구 데이터 세트에서 일하고 있어요 : 각 팀이 표시되는 첫 해를 찾기 위해, plyr/dplyr
data(baseball, package="plyr")
library(dplyr)
baseball[,1:4] %>% head
id year stint team
4 ansonca01 1871 1 RC1
44 forceda01 1871 1 WS3
68 mathebo01 1871 1 FW1
99 startjo01 1871 1 NY2
102 suttoez01 1871 1 CL1
106 whitede01 1871 1 CL1
먼저 내가 그룹에 팀에 의해 설정 데이터를 원하는, 이제까지 각 팀 재생 된 별개의 플레이어 수 :
baseball[,1:4] %>% group_by(team) %>%
summarise("first_year"=min(year), "num_distinct_players"=n_distinct(id))
# A tibble: 132 × 3
team first_year num_distinct_players
<chr> <int> <int>
1 ALT 1884 1
2 ANA 1997 29
3 ARI 1998 43
4 ATL 1966 133
5 BAL 1954 158
지금 나는 어떤 플레이어 (ID)가 문제의 팀 해왔다 년의 최대 수를 표시하는 열을 추가 할 수 있습니다. 이렇게하려면 기존 그룹 (팀) 내의 플레이어별로 그룹화하고 최대 행 수를 선택해야합니다. 어떻게해야합니까?
당신은'plyr'를로드하지만 전혀 사용하지 않는 팀에서 가장 긴 시간 동안 재생 플레이어의 이름을 제공 최대 행으로
id
의names
를 얻을. 나는'plyr' 기능을 정말로 필요로하지 않는 한'dplyr' 만 사용하는 것을 권장합니다. – Gregor@Gregor 나는 '야구'데이터 세트가 '플라이' – akrun