pdftools를 사용하여 PDF의 배치를 텍스트로 변환

데이터 분석을 위해 1000 개의 PDF를 텍스트로 변환하려고합니다. pdftools 패키지를 사용하고 있습니다.pdftools를 사용하여 PDF의 배치를 텍스트로 변환

나는 다음과 같은 코드를 사용하여 2 PDF로 변환 할 수 있었다 :

library(pdftools) 
file_list <- list.files('pdf', full.names = TRUE, pattern = 'pdf') 

for(i in 1:length(file_list)){ 
    temp <- pdf_text(file_list[i]) 
    temp <- tolower(temp) 

    file_name = paste(file_list[i], '.txt') 
    sink(file_name) 
    cat(temp) 
    sink() 

}

하지만 추가 할 때 2 개 이상 나는 다음과 같은 오류 얻을 : 또한

" Error in poppler_pdf_text(loadfile(pdf), opw, upw) : PDF parsing failure."

를, 내가 부탁을 최종 텍스트 파일

출처

2017-09-30 Claudia

만 "file_name.txt"지금 내가 "file_name.pdf이 .txt"

감사를 얻고있다 할 수

출처

2017-09-30 22:29:14 hrbrmstr

감사합니다. @ hrbrmstr! 그러나, 1000 PDF에서 20 개만 변환 할 수 있습니다. 나는 다른 코드 (아래 참조)를 사용하려고했지만 그 코드는 txt이다. 나는 모든 문자가 스페인어로되어 있기 때문에 모든 특수 문자가 '', ', ó, ú' '이고 모든 문자가 소문자 여야합니다.) – Claudia

pdf_files <- list.files (경로 = 페이스트 (getwd() '/ PDF'9 월 = '') 패턴 = "PDF", full.names = TRUE) 경우 (길이 (pdf_files)> 0) {위한 (I pdf_files에서) 시스템붙여 넣기 붙여 넣기 (' "', getwd(), '/xpdf/bin64/pdftotext.exe' ', sep =' ') paste0 (' '' ', ')), 대기 = 거짓) } } 고양이 ('\ n 텍스트 변환 완료. \ n \ n ') – Claudia

불행 실제로 사람들이 당신을 위해 코드를 작성하는 것은 불가능합니다. 'stringi' 패키지에는 다른 문자 세트의 번역에 도움이되는'stri_trans_tolower()'가 있습니다. – hrbrmstr

pdftools를 사용하여 PDF의 배치를 텍스트로 변환

답변

관련 문제