2016-11-29 8 views
0

R의 quanteda 패키지와 최신 버전의 R 및 패키지를 사용하고 있습니다. 수백만 건의 문서 자료가 있습니다.Quanteda - 문서 변수에 대해 DFM에 함수 적용

각 문서에 날짜의 docvar가있는 quantuma에서 DFM을 생성했다고 가정 해 보겠습니다. 주어진 날에 수천 건의 문서가 생성되었지만 하루에 문서에 적용된 DFM을 얻고 싶습니다. (그래서 나는 각 단어의 총 단어 수를 일별로 계산합니다). quantuma는 data.table을 사용하여 만들어 졌으므로이 작업을 수행 할 수 있어야합니다.하지만 "Quanteda 시작하기"또는 StackOverflow에서이 작업을 수행 할 수있는 깨끗한 방법을 제공하지 못했습니다.

제안 사항?

답변

1

당신은 dfm에 '그룹의 인수를 원하는 :

> # Add some random dates to an existing corpus 
> docvars(data_corpus_inaugural)$date <- rep(as.Date(runif(19, 1, 18000), origin='1970-01-01'), 3) 

> dfm_inaugural <- dfm(data_corpus_inaugural, groups='date') 
> head(dfm_inaugural) 
Document-feature matrix of: 19 documents, 9,215 features (80.8% sparse). 
(showing first 6 documents and first 6 features) 
      features 
docs   fellow citizens i appear before you 
    1970-12-27  4  7 39  2  10 17 
    1972-04-25  8  13 29  1  8 8 
    1973-08-22  1  3 48  1  6 1 
    1973-10-11  2  4 25  0  3 5 
    1974-01-05  3  9 57  0  7 2 
    1975-04-12  7  21 63  4  6 16