저는 R에서 tm
을 사용하고 10k 문서를 다루고 있습니다. 색인으로 일부를 조사하려고했지만 파일과 일치하지 않았습니다. 왜 tm은 대량의 문서를 이상한 순서로로드합니까? 그리고 그것을 고정/전복 할 수있는 방법은 무엇입니까?많은 양의 문서를 이상한 순서로로드하는 tm 패키지를 수정하는 방법은 무엇입니까?
library(tm)
docs <- c()
for (i in 1:10000) {
docs <- c(docs, paste('test', i))
}
cor <- VCorpus(VectorSource(docs))
filepath = '/home/nate/Dropbox/MSDS/MSDS682_ncg_F8W2_17/test_cor'
writeCorpus(cor, path = filepath)
cor2 <- VCorpus(DirSource(filepath))
as.character(cor2[[1]])
as.character(cor2[[2]])
as.character(cor2[[3]])
as.character(cor2[[4]])
이 출력합니다 :
test 10000
test 1000
test 1001
test 1002