2
방금 R에서 tm 패키지로 시작 했으므로 문제를 해결할 수 없습니다. 심지어 내 토크 나이 기능을하지만 바로 작동하는 것 : 나는 biTDM에서 2 그램을 끌어하려고 할 때TermDocumentMatrix in R - 단 1 그램 생성
uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1))
biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2))
triTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=3, max=3))
uniTDM <- TermDocumentMatrix(corpus, control=list(tokenize = uniTokenizer))
biTDM <- TermDocumentMatrix(corpus, control=list(tokenize = biTokenizer))
triTDM <- TermDocumentMatrix(corpus, control=list(tokenize = triTokenizer))
, 단 1 그램은 동일한에서 ...
findFreqTerms(biTDM, 50)
[1] "after" "and" "most" "the" "were" "years" "love"
[8] "you" "all" "also" "been" "did" "from" "get"
을 올의 문제가 여기에 무엇을
x <- biTokenizer(corpus)
head(x)
[1] "c in" "in the" "the years"
[4] "years thereafter" "thereafter most" "most of"
(https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)의 당신의 기회를 증가 할 것이다 당신의 질문에 대답을 얻는 것. – jsb