pdfminer

0열

1답변

python에서 pdfMiner를 사용하여 predicatbly 값을 읽는 방법

저는 pdfMiner를 사용하여 그래프 값을 읽었으며 지금까지 잘 작동했습니다! 그러나 올바른 데이터가 올바르게 읽히지 만 예측할 수없는 방식으로 한 영역이 있습니다. 즉 모든 그래프 값을 표시된 순서와 완전히 다른 순서로 읽습니다. 내가 아는 한 마지막 그래프가 항상 먼저 읽혀 지므로 내 프로그램을 구조화 할 수 있기 때문에 이것은 완전히 문제가되지 않습

5열

2답변

pdfminer3k에는 PDFPage에 create_pages라는 메서드가 없습니다.

저는 파이썬 2에서 3으로 옮기기를 원했기 때문에 파이썬 3.4에서 pdfmine.3kr을 사용해 보았습니다. 그들이 모든 것을 편집 한 것처럼 보입니다. 그들의 변경 로그는 그들이 한 변화를 반영하지 않지만 pdfminer3k로 pdf를 파싱하는 데 성공하지 못했습니다. 예 : 그들은 PDF 문서를 pdfparser로 옮겼습니다 (잘못 입력하면 죄송합니다

0열

1답변

PDFMiner Python2.7 오류

여기에서 지시에 따라 한 : python setup.py install 을하지만 pdf2txt.py samples/simple1.pdf 을하고는 PDF를 읽을하지 않는 경우, 경로는 괜찮습니다. > 역 추적 (마지막으로 가장 최근 통화) : 그것은 나를 다시에게 오류 제공 pkg_resources.run_script ('pdfminer3k에 파일 "/usr

1열

1답변

파이썬에서 mongodb 문서를 바이너리로 변환하는 방법은 무엇입니까?

나는이 파이썬 커맨드 라인 유틸리티를 기존의 프로그램에서 모듈로 사용할 수 있도록 변환하려고하고있다. 따라서 MongoEngine을 사용하여 MongoDB에 저장된 pdf를 먹일 수있다. 가 현재는 문자열로 파일 이름을 소요하고 다음 코드를 사용하여 파일을 가져옵니다 내 MongoDB의에서 문서에 넣을 때문에 fp = file(fname, 'rb') 를

1열

1답변

이 파이썬 메서드를 stdout에 쓰는 대신 문자열을 반환하는 방법은 무엇입니까?

파이썬을 사용하여 pdf에서 텍스트를 추출하려고합니다. 내 프로그램에서이 기능을 사용하려면 때문에 kramer65 $ pdf2txt.py myfile.pdf all the text contents of the pdf are printed out here.. , 나는 명령 줄이 아닌 모듈로 사용하려면 다음과 같이이를 위해 나는 pdf2txt.py c

12열

1답변

pdf 파일에서 텍스트 및 텍스트 좌표를 추출하는 방법은 무엇입니까?

PDF 파일에서 텍스트 상자와 텍스트 상자 좌표를 모두 추출하고 싶습니다. 많은 다른 StackOverflow 게시물은 모든 텍스트를 정렬 된 방식으로 추출하려고 시도하는 다양한 솔루션을 다루지 만 텍스트와 텍스트 위치를 가져 오는 중간 단계를 수행하는 방법을 파악하는 데 꽤 시간이 걸립니다. 한 번 발견 한 후에는 여기에 게시 할 가치가 있다고 생각했습니

3열

1답변

pdfminer로 가로로 PDF 파일 읽기

pdfminer (버전 20140328)으로 pdf를 추출하고 싶습니다. 이것은 PDF의 스크린 샷이다 import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfpage import PDFPage from pdfminer.convert

1열

1답변

파일 읽기와 MongoDB GridFS의 차이점은 무엇입니까?

PDF를 처리 할 파이썬 Flask framework으로 웹 사이트를 개발 중입니다. PDF 파일을 MongoDB에 저장합니다. 방문하는 사용자에게 제공해야 할 때 잘 작동합니다. 나는 이제 pdfminer library을 사용하는 텍스트 및 이미지 추출 작업을 수행해야합니다. for page in PDFPage.get_pages(file('ticket.p

2열

1답변

pdfminer를 사용하여 pdf에서 텍스트를 추출하면 복수 사본이 제공됩니다.

PDFMiner (코드는 Extracting text from a PDF file using PDFMiner in python?에 있음)를 사용하여 PDF 파일에서 텍스트를 추출하려고합니다. 나는 path/to/pdf를 제외한 코드를 변경하지 않았다. 놀랍게도이 코드는 동일한 문서의 여러 복사본을 반환합니다. 나는 다른 pdf 파일들과 같은 결과를 얻었습니