PDF 문서에서 텍스트를 추출하려고합니다. 내가 PDFBox
, TET
, PDFTextStream
등등과 같은 몇 가지 도구를 테스트했지만, 그들 중 누구도 페르시아 다중 열 PDF 문서의 텍스트를 추출하는 데 적합하지 않습니다.PDFBox에서 열을 어떻게 감지합니까?
현재이 도구의 장점을 결합하여 일부 유용한 정보를 사용하려고합니다. 이제는 페이지의 열 수를 감지하고 이러한 열의 텍스트를 분할하는 방법을 알고 싶습니다.
특별히 PDFBox
또는 PDFTextStream
의 클래스가 열 감지 및 작동 원리를 알고 싶습니다.
'PDFTextStream'은 앞에서 설명한대로입니다. 필자는 주요 객체와 이러한 객체의 [인터페이스] (http://downloads.snowtide.com/javadoc/PDFTextStream/2.3.2/com/snowtide/pdf/PDFTextStream.html)를 자세히 추적했습니다. 나는 그것의'API'가 정말로 간단하다고 생각한다. 그러나'PDFTextStream'의 주된 결함은'Right-to-Left' 스크립트 (페르시아어, 아랍어, 히브리어 등)를 지원하지 않는다는 것입니다. 그래서 나는'PDFBox'로 옮겼습니다! 그러나'PDFBox'는'RTL' pdf 문서의 텍스트 추출에 버그가 있습니다. 나는 그것이'Work-Flow' 아키텍처를 가지고 있으며 디버깅하기가 매우 어렵다고 생각합니다. 어쨌든 고마워. – user2041057