2014-05-14 2 views
0

큰 데이터 세트에서 텍스트 마이닝을하고 있습니다. TDM과 DTM을 만들 수 있었고 TDF & IDF를 사용하여 분석을 수행 할 수있었습니다. 그러나 R에서 Bi Grams에 대한 Term Document Matrix 또는 Document Term Matrix를 만들 수 있습니까? 비슷한 시설을 Mahout에서 사용할 수 있지만 R에서이 작업을 수행 할 방법을 찾고 있습니까?Bi 그램의 용어 문서 행렬을 만드시겠습니까?

답변

1

코드는 나를 위해 일한 태그 :

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))} 
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))