이것은 오래된 질문처럼 보일 수 있습니다. 그러나 30 분 정도의 시간을 들여서 검색 한 결과를 완전히 찾아 내지 못했습니다.PDF에서 문자열 위치가있는 모든 텍스트를 추출하십시오.
PDFBox를 사용하고 있으며 각 문자열의 좌표와 함께 PDF 파일의 모든 텍스트를 추출하고 싶습니다. 그들의 PrintTextLocations
예제 (http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html)를 사용하고 있지만 pdf의 종류와 함께 (E-Tickets) 프로그램에서 문자열을 인식하지 못하고 각 문자를 따로 인쇄합니다. 출력은 다음과 같은 문자열 목록 (각각 TextPosition
개체를 나타내는)이다 : 나는 독특한 TextPosition
로 문자열 "판매"를 인식하고 나에게 위치를 제공 할 수있는 프로그램을 원하는 반면
String[414.93896,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.0] s
String[418.93896,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.447998] a
String[423.38696,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=1.776001] l
String[425.16296,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.447998] e
. setSpacingTolerance()
및 setAverageCharacterTolerance()
PDFTextStripper
방법으로 다른 값을 표준 값 (각각 0.5와 0.3)으로 설정했지만 출력이 전혀 변경되지 않았습니다. 내가 어디로 잘못 가고 있니? 미리 감사드립니다.
아, PDF의 즐거움. 무엇을 만들었 느냐에 따라»텍스트«는 특정 위치에서 글리프 모음 일 뿐이므로 단어와 공백이있는 위치를 파악하기 위해 위치를 기반으로 추측해야합니다. – Joey