2011-09-22 1 views
2

pdf 파일과 텍스트 위치에 지정된 텍스트를 추출하고 싶습니다.xpdf 또는 mupdf를 통해 지정된 텍스트 pos을 얻는 방법은 무엇입니까?

저는 xpdf를 알고 있으며 mupdf가 pdf 파일을 구문 분석 할 수 있으므로이 작업을 수행하는 데 도움이 될 것으로 생각합니다.

하지만이 두 개의 lib를 사용하여 텍스트 위치를 얻는 방법은 무엇입니까?

+0

텍스트 위치는 무엇을 의미합니까? –

+0

@ DanD.Text position은 페이지의 첫 번째 문자 위치를 의미합니다. – PDF1001

답변

1

Mupdf에는 두 가지 도구가 있으며, 하나는 pdfdraw입니다.

-tt 옵션과 함께 pdfdraw를 사용하면 모든 문자와 정확한 위치 정보가 포함 된 XML가 생성됩니다.
거기에서 필요한 것을 찾을 수 있어야합니다. 당신이 관심이 있다면 우리는 GitHub의에있는

import fitz      # the PyMuPDF module 
doc = fitz.open("input.pdf") # PDF input file 
page = doc[n]     # page number n (0-based) 
wordlist = page.getTextWords() # gives you a list of all words on the 
# page, together with their position info (a rectangle containing the word) 

# or, if you only are interested in blocks of lines belonging together: 
blocklist = page.getTextBlocks() 

# If you need yet more details, use a JSON-based output, which also gives 
# images and their positions, as well as font information for the text. 
tdict = json.loads(page.getText("json")) 

: 당신은 파이썬이 MuPDF 바인딩을 사용하여 괜찮다면

+0

최신 버전에서는 mudraw.c라고하며 흔적은 structured-text.h 및 stext-output.c로 연결됩니다. 매우 감사합니다. – Amoss

0

, 여기 PyMuPDF를 사용하여 파이썬 솔루션 (나는 그것의 개발자 중 하나입니다)입니다.