0
데이터 분석을 위해 1000 개의 PDF를 텍스트로 변환하려고합니다. pdftools 패키지를 사용하고 있습니다.pdftools를 사용하여 PDF의 배치를 텍스트로 변환
나는 다음과 같은 코드를 사용하여 2 PDF로 변환 할 수 있었다 :
library(pdftools)
file_list <- list.files('pdf', full.names = TRUE, pattern = 'pdf')
for(i in 1:length(file_list)){
temp <- pdf_text(file_list[i])
temp <- tolower(temp)
file_name = paste(file_list[i], '.txt')
sink(file_name)
cat(temp)
sink()
}
하지만 추가 할 때 2 개 이상 나는 다음과 같은 오류 얻을 : 또한
" Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure."
를, 내가 부탁을 최종 텍스트 파일
감사합니다. @ hrbrmstr! 그러나, 1000 PDF에서 20 개만 변환 할 수 있습니다. 나는 다른 코드 (아래 참조)를 사용하려고했지만 그 코드는 txt이다. 나는 모든 문자가 스페인어로되어 있기 때문에 모든 특수 문자가 '', ', ó, ú' '이고 모든 문자가 소문자 여야합니다.) – Claudia
pdf_files <- list.files (경로 = 페이스트 (getwd() '/ PDF'9 월 = '') 패턴 = "PDF", full.names = TRUE) 경우 (길이 (pdf_files)> 0) {위한 (I pdf_files에서) 시스템붙여 넣기 붙여 넣기 (' "', getwd(), '/xpdf/bin64/pdftotext.exe' ', sep =' ') paste0 (' '' ', ')), 대기 = 거짓) } } 고양이 ('\ n 텍스트 변환 완료. \ n \ n ') – Claudia
불행 실제로 사람들이 당신을 위해 코드를 작성하는 것은 불가능합니다. 'stringi' 패키지에는 다른 문자 세트의 번역에 도움이되는'stri_trans_tolower()'가 있습니다. – hrbrmstr