1
TermDocument
행렬에 R을 사용하고 문서 (문자열)에도 단일 문자 단어가 포함됩니다. TermDocument
매트릭스를 사용 후, 본 계약은 해당 한 글자 단어를 포함하지 않는, 나는 기본적으로TermDocument 매트릭스를 작성한 후에서 한 자리/문자를 용어로 볼 수 없습니다.
TermDocument
행렬에 R을 사용하고 문서 (문자열)에도 단일 문자 단어가 포함됩니다. TermDocument
매트릭스를 사용 후, 본 계약은 해당 한 글자 단어를 포함하지 않는, 나는 기본적으로TermDocument 매트릭스를 작성한 후에서 한 자리/문자를 용어로 볼 수 없습니다.
가 min wordlength
이 3
입니다 matrix.` 내 임기 문서에서 한 글자 단어를 포함하기 위해 입력 인수로 포함해야한다 제어하는 제안하십시오 . 기본값을 대체하려면 매개 변수를 control
으로 지정해야합니다. 다음 코드를 확인하십시오.
library(tm)
docs <- c("This is a text","When Will u start", "1 12 123")
corpus <- Corpus(VectorSource(docs))
as.matrix(DocumentTermMatrix(corpus)) #words with length < 3 ('a','u','1','12') are excluded
# Terms
#Docs 123 start text this when will
# 1 0 0 1 1 0 0
# 2 0 1 0 0 1 1
# 3 1 0 0 0 0 0
as.matrix(DocumentTermMatrix(corpus, control = list(wordLengths=c(1,Inf))))
# Terms
#Docs 1 12 123 a is start text this u when will
# 1 0 0 0 1 1 0 1 1 0 0 0
# 2 0 0 0 0 0 1 0 0 1 1 1
# 3 1 1 1 0 0 0 0 0 0 0 0
감사합니다. Sandipan. 그것은 효과가 있었다. +1 – vaibhav