2017-12-26 20 views
1

선택한 단어 만 표로 만들어서 문서 모음을 DocumentTermMatrix로 변환하려고합니다. 그것은 나에게이 있습니다Dictionary가있는 DocumentTermMatrix

 a = list("I am a big big big apple", "Petter Petter Peter Peter") 
    v = VCorpus(VectorSource(a)) 
    my_terms = c("peter", "petter") 
    DocumentTermMatrix(v, control = list(dictionary = my_terms)) %>% as.matrix() 

: 나는 제어 목록에서 "사전"매개 변수이 수행 알고

 Terms 
    Docs peter petter 
     1  0  0 
     2  1  1 

내가 원하는 것은 다음과 같습니다 반면 :

 Terms 
    Docs peter petter 
     1  0  0 
     2  2  2 
  1. 첫 번째 문서는 비어 있지만 그대로 있어야합니다. (메타 데이터와 일치해야하기 때문에)
  2. 단어의 빈도가 출력에 표시되어야합니다.

기능/매개 변수가 있는지 궁금합니다.

+1

, 나에게 두 번째 결과 (당신이 원하는)를 제공합니다. 제발, 다시 확인해 봐. – KoenV

+0

여기에 버전 문제가 있습니까? 확실히 나를 위해 작동하지 않기 때문에 ... – user7453767

답변

0

그것은 잘 작동 : (설치 및`tm` 패키지를로드 한 후) 코드를 실행

library(magrittr) 
library(tm) 

a <- list("I am a big big big apple", "Petter Petter Peter Peter") 
v <- VCorpus(VectorSource(a)) 
my_terms <- c("peter", "petter") 
DocumentTermMatrix(v, control = list(dictionary = my_terms)) %>% 
     as.matrix()