pdfminer

2열

2답변

복사 + 붙여 넣기와 같은 레이아웃으로 PDF 파일에서 데이터 가져 오기

PDF 파일에서 일련의 테이블을 가져 오는 과정을 자동화하는 절차가 있습니다. 현재 나는 어떤 뷰어 (Adobe, Sumatra, okular 등)에서 파일을 열고 Ctrl + A, Ctrl + C, Ctrl + V로 메모장에 파일을 열어서 그렇게 할 수 있으며, 각 라인을 합리적인 것으로 정렬합니다. 그 다음에 정규 표현식을 실행하고 나중에 필요할 때마다

-3열

1답변

파워 포인트 이미지를 프로그래밍 방식으로 그룹화하는 방법

PDF 마이너 모듈을 사용하여 pdf에서 이미지를 추출하려고합니다. 단일 이미지로 그래프 이미지를 추출하려고하지만 실제로는 전체 그래프 이미지를 반환하지 않습니다. 나는 pdf를 ppt로 변환했다. 그런 다음 수동으로 그래픽 이미지를 단일 이미지로 그룹화 한 다음 다시 pdf로 변환했다. 이제 pdf miner가 그래프 이미지를 단일 이미지로 추출합니다.

0열

1답변

포함 된 PDF 추출 중 - PDFInterpreterError : 알 수없는 연산자 : '\ x00'

Scrapy를 사용하여 이진 파일을 메모리로 읽어 들이고 내용을 추출하려면 pdf를 다운로드해야합니다. 나는 PDF가 보이는 페이지에 포함되어 있음을 깨닫게 같은 : 나는 HTTP의 scrapy의 response.body을 열 <embed id="plugin" type="application/x-google-chrome-pdf" src="http:xxx/D

1열

1답변

.PDF를 반복하고 PDFMiner를 사용하여 .txt로 변환하십시오.

저는 독자적으로 수행 할 수 있었던 두 가지 다른 것들을 병합하려고합니다. 불행히도 PDFMiner 문서는 전혀 유용하지 않습니다. PDF 파일이 백 가지 인 폴더가 있습니다. 이름은 "[0-9].pdf"이며 특별한 순서는 없으며 파일을 정렬하는 데 신경 쓰지 않아도됩니다. 나는 그들을 통해 가서 텍스트로 변환하는 방법이 필요합니다. 이 게시물 사용 : E

1열

1답변

pdfminer pdf2text는 'FF'를 출력합니다.

저는 pdf가 있습니다. 내 승리 (10), 파이썬 3.6 환경에서 pdfminer.six 설치 한 후, 나는 달렸다 : $ pdf2txt.py -o test1 download.pdf 나에게 화면 출력을주기. 내가 실행하면 : $ dumppdf.py -o test2 download.pdf 를 내가 얻을 : <trailer> <dict size="4

1열

1답변

pdfminer - PDF 테이블에 액세스

저는 python 스크립트에서 라이브러리로 사용하여 pdfMiner로 PDF를 구문 분석하고 있습니다. 대부분의 PDF에는 테이블 중 하나가 "company"라는 테이블이 있습니다. 방법 : 1) PDF에서 해당 테이블의 존재를 감지하십시오. 2) 회사 이름 (예 : 테이블의 두 번째 열에있는 모든 항목)을 가져옵니다. 당신의 도움에 대한 덕분에 AC

0열

1답변

파이썬을 사용하여 pdf의 텍스트 상자 안에있는 데이터 읽기

나는 텍스트 상자, 라디오 버튼, 체크 박스 등이 들어있는 pdf 파일이 있습니다. 어떻게 파이썬을 사용하여 pdf에서 모든 데이터를 추출합니까? pdfminer 또는 pypdf2를 사용하려고하면 텍스트 상자의 데이터를 다 쓸 수 없습니다. 첨부 된 이미지를 참조하십시오. 예를 들어 : 내가 pdfminer를 사용하는 경우 , 내가 "1) 프로그램 :"sc

2열

1답변

내가 <pre><code>pip install pdfminer.six </code></pre> <p></p>를 입력, 내 cmd를 창에서 윈도우 10

1열

1답변

파이썬 pdfminer pdf2html : 아포스트로피가 특수 문자로 변환되었습니다.

파이썬에서 pdfminer 패키지를 사용하여 PDF를 HTML로 변환하지만, 아포스트로피를 특수 문자로 변환합니다. 예 : â€˜This is a text between apostrophesâ€™ 은 다음과 같아야합니다 아포스트로피로 다시 특수 문자를 변환하거나 인코딩 또는 무언가를 변경할 수있는 방법이 'This is a text between apost

0열

1답변

공백으로 pdfminer를 사용하여 pdf 추출

여러 번 논의되는 pdf에서 텍스트를 추출하려고하지만 여전히 단어 사이의 공백을 유지하면서 pdf를 추출 할 수 없습니다. 'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials : \ nFactorsIn \ nuencingtheFrameworkStructures \ nKangMinOk \ n * Depar