다음과 같이 보이는 데이터 세트가 있습니다. 실제 데이터 세트는 회사 이름과 같은 잔털 정보가 추가 된 150000 행입니다.r (날짜 계열로 연결될 가능성이 있음)의 특정 날짜와의 상관 관계를 계산합니다.
Date return1 return2 rank
01/31/2008 0.05434 0.23413 3
01/31/2008 0.03423 0.43423 4
01/31/2008 0.65277 0.23423 1
01/31/2008 0.02342 0.47234 4
02/31/2008 0.01463 0.
02/31/2008 0.13456 0.52552 2
02/31/2008 0.34534 0.36663 1
02/31/2008 0.00324 0.56463 3
...
12/31/2015 0.21234 0.02333 2
12/31/2015 0.07245 0.87234 1
12/31/2015 0.47282 0.12998 1
12/31/2015 0.99022 0.03445 2
는 기본적으로 나는 (등등 2008년 1월 31일, 2008년 2월 31일에. 그래서 CORR 등) return1
과 rank
사이의 날짜 별 상관 관계를 caculate해야합니다. 나는 split()
함수를 사용하여 데이터를 분리 할 수 있지만 날짜 관련 상관 관계를 얻는 방법은 확실하지 않습니다. 실제 데이터에는 날짜와 약 68 개의 날짜에 약 260 개의 항목이 있으므로 원본 테이블을 수동으로 하위 집합하고 계산을 수행하는 것은 시간이 많이 소요되지만 더 중요한 것은 오류의 영향을 더 많이받습니다.
궁극적 인 목표는 서로 다른 날짜의 상관 관계의 시계열을 만드는 것입니다.
미리 감사드립니다.
이 'dplyr' 및'tidyr' 치트 시트에는 필요한 모든 것이 있으며 명확하고 체계적인 방식으로 제공됩니다. https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling -cheatsheet.pdf –
정말 감사합니다. fyi는 제안 된 시트를 사용하여 답을 찾았습니다 :'correlations <-as.data.frame (merged_data %> % group_by (Date) %> % summarize (cor (X1.Mo..Forward.Returns, Team Rank'))))') – Noah