2016-06-08 3 views
0

다음과 같이 보이는 데이터 세트가 있습니다. 실제 데이터 세트는 회사 이름과 같은 잔털 정보가 추가 된 150000 행입니다.r (날짜 계열로 연결될 가능성이 있음)의 특정 날짜와의 상관 관계를 계산합니다.

Date   return1 return2 rank 
01/31/2008 0.05434 0.23413 3 
01/31/2008 0.03423 0.43423 4 
01/31/2008 0.65277 0.23423 1 
01/31/2008 0.02342 0.47234 4 
02/31/2008 0.01463 0.
02/31/2008 0.13456 0.52552 2 
02/31/2008 0.34534 0.36663 1 
02/31/2008 0.00324 0.56463 3 
... 
12/31/2015 0.21234 0.02333 2 
12/31/2015 0.07245 0.87234 1 
12/31/2015 0.47282 0.12998 1 
12/31/2015 0.99022 0.03445 2 

는 기본적으로 나는 (등등 2008년 1월 31일, 2008년 2월 31일에. 그래서 CORR 등) return1rank 사이의 날짜 별 상관 관계를 caculate해야합니다. 나는 split() 함수를 사용하여 데이터를 분리 할 수 ​​있지만 날짜 관련 상관 관계를 얻는 방법은 확실하지 않습니다. 실제 데이터에는 날짜와 약 68 개의 날짜에 약 260 개의 항목이 있으므로 원본 테이블을 수동으로 하위 집합하고 계산을 수행하는 것은 시간이 많이 소요되지만 더 중요한 것은 오류의 영향을 더 많이받습니다.

궁극적 인 목표는 서로 다른 날짜의 상관 관계의 시계열을 만드는 것입니다.

미리 감사드립니다.

+0

이 'dplyr' 및'tidyr' 치트 시트에는 필요한 모든 것이 있으며 명확하고 체계적인 방식으로 제공됩니다. https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling -cheatsheet.pdf –

+0

정말 감사합니다. fyi는 제안 된 시트를 사용하여 답을 찾았습니다 :'correlations <-as.data.frame (merged_data %> % group_by (Date) %> % summarize (cor (X1.Mo..Forward.Returns, Team Rank'))))') – Noah

답변

0

필자는 상관 관계를 계산하지 않았다는 것을 제외하면 이전과 같은 문제가있었습니다. 내가 뭘 할 것은

a %>% group_by(Date) %>% summarise(Correlation = cor(return1, rank)) 

입니다 그리고 이것은 각 날짜, return1rank 사이의 상관 값을 제공합니다. 어떤 종류의 상관 관계 (예 : Spearman)를 지정할 수 있다는 것을 잊지 마십시오.