PDF에서 PDF를 추출하려면 PDFBox를 사용하고 있습니다. PDF는 매우 단순한 테이블 형식의 구조를 가지고 있으며 각 열은 매우 넓습니다.PDFBox 텍스트 추출에서 "긴"공백 유지
모든 종류의 가로 공간이 하나의 공백 문자로 변환된다는 것을 제외하고는 실제로 잘 작동합니다. 더 이상 열을 구분할 수 없습니다 (열 사이의 공백은 열 사이의 공백처럼 보입니다).
일반적인 솔루션은 매우 어렵지만,이 경우에는 열이 실제로 멀리 떨어져 있으므로 "긴 공백"과 "단어 사이의 공백"을 쉽게 구분할 수 있습니다.
x 인치 이상의 가로 공백을 하나의 공간이 아닌 다른 것으로 변환하도록 PDFBox에 지시하는 방법이 있습니까? 비례적인 접근법 (x inch가 y 공백이 됨)도 가능합니다.
pdftotext C library/tool에는 '-layout'스위치가있어 레이아웃을 유지하려고합니다. 기본적으로, 내가 PDFBox로 에뮬레이션 할 수 있다면, 완벽 할 것입니다.
[이 답변] (https://stackoverflow.com/a/45842515/1729265)을 참조하십시오. – mkl