2017-12-31 150 views
-1

pdf에는 줄 바꿈 된 데이터가 포함되어 있으며 표제와 그에 해당하는 값이 들어있는 줄 다음에 표가 있으며 규칙적으로 가져올 수는 없지만 오히려 내가 완전한 열 머리글을 하나의 text.I 다른 하나의 데이터를 얻으려면, 줄 다음에 현재의 행과 그 해당 값을 연결할 수 있습니다, 나는 테이블에 대해 동일한 작업을 수행 할 수 없습니다.pdf에서 해당 열 데이터를 추출하는 방법

fp = open(my_file, "rb") 
parser = PDFParser(fp) 
document = PDFDocument(parser) 
if not document.is_extractable: 
    raise PDFTextExtractionNotAllowed 

rsrcmgr = PDFResourceManager() 
laparams = LAParams() 
laparams.line_margin = 12 
device = PDFPageAggregator(rsrcmgr, laparams=laparams) 
interpreter = PDFPageInterpreter(rsrcmgr, device) 
for page in PDFPage.create_pages(document): 
    interpreter.process_page(page) 
    layout = device.get_result() 
    for lt_obj in layout: 
     if isinstance(lt_obj,LTTextBox): 
      extracted_text += lt_obj.get_text() 

print extracted_text 

답변

1

PDF는 특정 순서대로 배치되지 않습니다 (일반적으로 순서는 완전히 랜덤하지는 않지만).

텍스트가있는 경우 헤더를 찾아서 X, Y 위치에서 행의 내용을 추론해야합니다.

+0

어떻게해야합니까? pdfminer에 대한 잘 정의 된 문서는 없습니다. –