pdf 파일에서 텍스트를 읽는 데 관심이있는 경우 다음 코드는 python 3.4를 사용하여 pdfminer3k와 작동합니다.
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox, LTTextLine
fp = open('file.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument()
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize('')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
# Process each page contained in the document.
for page in doc.get_pages():
interpreter.process_page(page)
layout = device.get_result()
for lt_obj in layout:
if isinstance(lt_obj, LTTextBox) or isinstance(lt_obj, LTTextLine):
print(lt_obj.get_text())
fp.close()
출처
2015-01-02 08:29:14
CPB
정확히 무엇을 찾으십니까? pdfminer3k에서'create_pages'하는 방법? – avi
어디서든 문서화되지 않은 새로운 API를 기반으로 pdfminer3k를 사용하여 pdfminer를 사용하여 동일한 작업을 수행 할 수있는 예제를 찾고 있습니다. –