0
내 작업이 원활를 따라 가고 있었다 pdftools를 사용하지만 난 이상한 문자를 포함하는 내 PDF 파일의 일부로 인한 문제 발생 ("DY"§ ")입력이 잘못되었습니다 'DY'§ 'utf8towcs'에서 때 TM과
I을 기존의 논의를 검토하지만, 그 솔루션 아무도 일하지 않은 :에
setwd("E:/OneDrive/Thesis/Received comments document/Consultation 50")
getwd()
library(tm)
library(NLP)
library(tidytext)
library(dplyr)
library(pdftools)
files <- list.files(pattern = "pdf$")
comments <- lapply(files, pdf_text)
corp <- Corpus(VectorSource(comments))
corp <- VCorpus(VectorSource(comments));names(corp) <- files
Comments.tdm <- TermDocumentMatrix(corp, control = list(removePunctuation = TRUE,
stopwords = TRUE,
tolower = TRUE,
stemming = TRUE,
removeNumbers = TRUE,
bounds = list(global = c(3, Inf))))
결과 : .tolower 오류 (TXT) : 유효하지 않은 입력 'DY'§ ' R tm package invalid input in 'utf8towcs'
이 내 지금까지 코드 'utf8towcs'에서
inspect(Comments.tdm[1:32,])
ap_td <- tidy(Comments.tdm)
write.csv(ap_td, file = "Terms 50.csv")
도움을 주시면 감사하겠습니다. ps,이 코드는 다른 pdf에서 완벽하게 작동했습니다.