pdf 파일과 텍스트 위치에 지정된 텍스트를 추출하고 싶습니다.xpdf 또는 mupdf를 통해 지정된 텍스트 pos을 얻는 방법은 무엇입니까?
저는 xpdf를 알고 있으며 mupdf가 pdf 파일을 구문 분석 할 수 있으므로이 작업을 수행하는 데 도움이 될 것으로 생각합니다.
하지만이 두 개의 lib를 사용하여 텍스트 위치를 얻는 방법은 무엇입니까?
pdf 파일과 텍스트 위치에 지정된 텍스트를 추출하고 싶습니다.xpdf 또는 mupdf를 통해 지정된 텍스트 pos을 얻는 방법은 무엇입니까?
저는 xpdf를 알고 있으며 mupdf가 pdf 파일을 구문 분석 할 수 있으므로이 작업을 수행하는 데 도움이 될 것으로 생각합니다.
하지만이 두 개의 lib를 사용하여 텍스트 위치를 얻는 방법은 무엇입니까?
Mupdf에는 두 가지 도구가 있으며, 하나는 pdfdraw
입니다.
-tt
옵션과 함께 pdfdraw를 사용하면 모든 문자와 정확한 위치 정보가 포함 된 XML
가 생성됩니다.
거기에서 필요한 것을 찾을 수 있어야합니다. 당신이 관심이 있다면 우리는 GitHub의에있는
import fitz # the PyMuPDF module
doc = fitz.open("input.pdf") # PDF input file
page = doc[n] # page number n (0-based)
wordlist = page.getTextWords() # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)
# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()
# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))
: 당신은 파이썬이 MuPDF 바인딩을 사용하여 괜찮다면
최신 버전에서는 mudraw.c라고하며 흔적은 structured-text.h 및 stext-output.c로 연결됩니다. 매우 감사합니다. – Amoss
, 여기 PyMuPDF를 사용하여 파이썬 솔루션 (나는 그것의 개발자 중 하나입니다)입니다.
텍스트 위치는 무엇을 의미합니까? –
@ DanD.Text position은 페이지의 첫 번째 문자 위치를 의미합니다. – PDF1001