나는 2 열 형식의 PDF 파일을 가지고 있습니다. 간단한 텍스트로 분석 할 수 있지만이 pdfs에는 중간에 이미지가 있습니다. 결과적으로 내 텍스트 출력은 중간에 이미지가있는 PDF의 특정 페이지에 대해 뒤죽박죽이됩니다.이미지가있는 PDF 문서 리더
예를 들어, 2 열 페이지 형식을 고려
이미지 텍스트 2
이미지 이미지
이미지 텍스트 3
텍스트 1 이미지
Text4
출력 텍스트 4 텍스트 3 텍스트 2 텍스트 1 텍스트 대신 1 텍스트 2 텍스트 3 텍스트 4
올바른 순서로 텍스트를 읽는 방법은 무엇입니까?
다음 코드
public void parsePdf(String pdf, String txt) throws IOException {
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
TextExtractionStrategy strategy;
for (int i = 76; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
out.println(strategy.getResultantText());
}
out.flush();
out.close();
}