-1
pdf에는 줄 바꿈 된 데이터가 포함되어 있으며 표제와 그에 해당하는 값이 들어있는 줄 다음에 표가 있으며 규칙적으로 가져올 수는 없지만 오히려 내가 완전한 열 머리글을 하나의 text.I 다른 하나의 데이터를 얻으려면, 줄 다음에 현재의 행과 그 해당 값을 연결할 수 있습니다, 나는 테이블에 대해 동일한 작업을 수행 할 수 없습니다.pdf에서 해당 열 데이터를 추출하는 방법
fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser)
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
rsrcmgr = PDFResourceManager()
laparams = LAParams()
laparams.line_margin = 12
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
layout = device.get_result()
for lt_obj in layout:
if isinstance(lt_obj,LTTextBox):
extracted_text += lt_obj.get_text()
print extracted_text
어떻게해야합니까? pdfminer에 대한 잘 정의 된 문서는 없습니다. –