나는 tm
패키지를 처음 사용하고 있으며 도움에 감사 할 것입니다. tm
패키지 (아래 참조)의 다양한 기능을 사용하여 불필요한 기호와 불용어를 추출한 게시물이 많이 있습니다. 마지막에는 필요한 깨끗한 문자열이 포함 된 201 개의 문서가 남아 있지만 R 개체가 아니라 VCorpus
개체입니다. 이 처리 된 문서를 모두 하나의 텍스트 파일로 스티치하여 하나의 긴 문자열이되도록해야합니까?tm 패키지의 R 개체로 돌아 오는 텍스트
즉, 어떻게 VCorpus 개체를 데이터 프레임이나 목록 또는 다른 R 개체로 변환 할 수 있습니까?
corpus <-iconv(posts$message, "latin1", "ASCII", sub="")
corpus <- Corpus(VectorSource(docs))
corpus <- tm_map(corpus, PlainTextDocument)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, tolower)
#remove speical characters for emails
for(j in seq(corpus))
{
corpus[[j]] <- gsub("/", " ", corpus[[j]])
corpus[[j]] <- gsub("@", " ", corpus[[j]])
corpus[[j]] <- gsub("\\|", " ", corpus[[j]])
}
library(SnowballC)
corpus <- tm_map(corpus, stemDocument)
#remove common English stopwords
docs <- tm_map(docs, removeWords, stopwords("english"))
#remove words that will be common in our given context
docs <- tm_map(docs, removeWords, c("department", "email", "job", "fresher", "internship"))
#removeUrls
removeURL <- function(x) gsub("http[[:alnum:]]*", "", x)
corpus <- tm_map(corpus, removeURL)
> corpus
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 201
완전히 다른 질문으로 질문을 수정하지 마십시오. 대신 새 질문을 엽니 다. – MrFlick