pdfminer

    0

    1답변

    저는 pdfMiner를 사용하여 그래프 값을 읽었으며 지금까지 잘 작동했습니다! 그러나 올바른 데이터가 올바르게 읽히지 만 예측할 수없는 방식으로 한 영역이 있습니다. 즉 모든 그래프 값을 표시된 순서와 완전히 다른 순서로 읽습니다. 내가 아는 한 마지막 그래프가 항상 먼저 읽혀 지므로 내 프로그램을 구조화 할 수 있기 때문에 이것은 완전히 문제가되지 않습

    5

    2답변

    저는 파이썬 2에서 3으로 옮기기를 원했기 때문에 파이썬 3.4에서 pdfmine.3kr을 사용해 보았습니다. 그들이 모든 것을 편집 한 것처럼 보입니다. 그들의 변경 로그는 그들이 한 변화를 반영하지 않지만 pdfminer3k로 pdf를 파싱하는 데 성공하지 못했습니다. 예 : 그들은 PDF 문서를 pdfparser로 옮겼습니다 (잘못 입력하면 죄송합니다

    0

    1답변

    여기에서 지시에 따라 한 : python setup.py install 을하지만 pdf2txt.py samples/simple1.pdf 을하고는 PDF를 읽을하지 않는 경우, 경로는 괜찮습니다. > 역 추적 (마지막으로 가장 최근 통화) : 그것은 나를 다시에게 오류 제공 pkg_resources.run_script ('pdfminer3k에 파일 "/usr

    1

    1답변

    나는이 파이썬 커맨드 라인 유틸리티를 기존의 프로그램에서 모듈로 사용할 수 있도록 변환하려고하고있다. 따라서 MongoEngine을 사용하여 MongoDB에 저장된 pdf를 먹일 수있다. 가 현재는 문자열로 파일 이름을 소요하고 다음 코드를 사용하여 파일을 가져옵니다 내 MongoDB의에서 문서에 넣을 때문에 fp = file(fname, 'rb') 를

    1

    1답변

    파이썬을 사용하여 pdf에서 텍스트를 추출하려고합니다. 내 프로그램에서이 기능을 사용하려면 때문에 kramer65 $ pdf2txt.py myfile.pdf all the text contents of the pdf are printed out here.. , 나는 명령 줄이 아닌 모듈로 사용하려면 다음과 같이이를 위해 나는 pdf2txt.py c

    12

    1답변

    PDF 파일에서 텍스트 상자와 텍스트 상자 좌표를 모두 추출하고 싶습니다. 많은 다른 StackOverflow 게시물은 모든 텍스트를 정렬 된 방식으로 추출하려고 시도하는 다양한 솔루션을 다루지 만 텍스트와 텍스트 위치를 가져 오는 중간 단계를 수행하는 방법을 파악하는 데 꽤 시간이 걸립니다. 한 번 발견 한 후에는 여기에 게시 할 가치가 있다고 생각했습니

    3

    1답변

    pdfminer (버전 20140328)으로 pdf를 추출하고 싶습니다. 이것은 PDF의 스크린 샷이다 import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.convert

    1

    1답변

    PDF를 처리 할 파이썬 Flask framework으로 웹 사이트를 개발 중입니다. PDF 파일을 MongoDB에 저장합니다. 방문하는 사용자에게 제공해야 할 때 잘 작동합니다. 나는 이제 pdfminer library을 사용하는 텍스트 및 이미지 추출 작업을 수행해야합니다. for page in PDFPage.get_pages(file('ticket.p

    2

    1답변

    PDFMiner (코드는 Extracting text from a PDF file using PDFMiner in python?에 있음)를 사용하여 PDF 파일에서 텍스트를 추출하려고합니다. 나는 path/to/pdf를 제외한 코드를 변경하지 않았다. 놀랍게도이 코드는 동일한 문서의 여러 복사본을 반환합니다. 나는 다른 pdf 파일들과 같은 결과를 얻었습니