pdfminer

    2

    2답변

    PDF 파일에서 일련의 테이블을 가져 오는 과정을 자동화하는 절차가 있습니다. 현재 나는 어떤 뷰어 (Adobe, Sumatra, okular 등)에서 파일을 열고 Ctrl + A, Ctrl + C, Ctrl + V로 메모장에 파일을 열어서 그렇게 할 수 있으며, 각 라인을 합리적인 것으로 정렬합니다. 그 다음에 정규 표현식을 실행하고 나중에 필요할 때마다

    -3

    1답변

    PDF 마이너 모듈을 사용하여 pdf에서 이미지를 추출하려고합니다. 단일 이미지로 그래프 이미지를 추출하려고하지만 실제로는 전체 그래프 이미지를 반환하지 않습니다. 나는 pdf를 ppt로 변환했다. 그런 다음 수동으로 그래픽 이미지를 단일 이미지로 그룹화 한 다음 다시 pdf로 변환했다. 이제 pdf miner가 그래프 이미지를 단일 이미지로 추출합니다.

    0

    1답변

    Scrapy를 사용하여 이진 파일을 메모리로 읽어 들이고 내용을 추출하려면 pdf를 다운로드해야합니다. 나는 PDF가 보이는 페이지에 포함되어 있음을 깨닫게 같은 : 나는 HTTP의 scrapy의 response.body을 열 <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/D

    1

    1답변

    저는 독자적으로 수행 할 수 있었던 두 가지 다른 것들을 병합하려고합니다. 불행히도 PDFMiner 문서는 전혀 유용하지 않습니다. PDF 파일이 백 가지 인 폴더가 있습니다. 이름은 "[0-9].pdf"이며 특별한 순서는 없으며 파일을 정렬하는 데 신경 쓰지 않아도됩니다. 나는 그들을 통해 가서 텍스트로 변환하는 방법이 필요합니다. 이 게시물 사용 : E

    1

    1답변

    저는 pdf가 있습니다. 내 승리 (10), 파이썬 3.6 환경에서 pdfminer.six 설치 한 후, 나는 달렸다 : $ pdf2txt.py -o test1 download.pdf 나에게 화면 출력을주기. 내가 실행하면 : $ dumppdf.py -o test2 download.pdf 를 내가 얻을 : <trailer> <dict size="4

    1

    1답변

    저는 python 스크립트에서 라이브러리로 사용하여 pdfMiner로 PDF를 구문 분석하고 있습니다. 대부분의 PDF에는 테이블 중 하나가 "company"라는 테이블이 있습니다. 방법 : 1) PDF에서 해당 테이블의 존재를 감지하십시오. 2) 회사 이름 (예 : 테이블의 두 번째 열에있는 모든 항목)을 가져옵니다. 당신의 도움에 대한 덕분에 AC

    0

    1답변

    나는 텍스트 상자, 라디오 버튼, 체크 박스 등이 들어있는 pdf 파일이 있습니다. 어떻게 파이썬을 사용하여 pdf에서 모든 데이터를 추출합니까? pdfminer 또는 pypdf2를 사용하려고하면 텍스트 상자의 데이터를 다 쓸 수 없습니다. 첨부 된 이미지를 참조하십시오. 예를 들어 : 내가 pdfminer를 사용하는 경우 , 내가 "1) 프로그램 :"sc

    2

    1답변

    에 pdfminer.six 설치할 수 없습니다 그것은 나에게 이러한 오류를 제공합니다. Microsoft Windows [Version 10.0.15063] (c) 2017 Microsoft Corporation. All rights reserved. C:\Users\Eric Kim>pip install pdfminer.six Collecting p

    1

    1답변

    파이썬에서 pdfminer 패키지를 사용하여 PDF를 HTML로 변환하지만, 아포스트로피를 특수 문자로 변환합니다. 예 : ‘This is a text between apostrophes’ 은 다음과 같아야합니다 아포스트로피로 다시 특수 문자를 변환하거나 인코딩 또는 무언가를 변경할 수있는 방법이 'This is a text between apost

    0

    1답변

    여러 번 논의되는 pdf에서 텍스트를 추출하려고하지만 여전히 단어 사이의 공백을 유지하면서 pdf를 추출 할 수 없습니다. 'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials : \ nFactorsIn \ nuencingtheFrameworkStructures \ nKangMinOk \ n * Depar