pdfminer pdf2text는 'FF'를 출력합니다.

저는 pdf가 있습니다. 내 승리 (10), 파이썬 3.6 환경에서 pdfminer.six 설치 한 후, 나는 달렸다 :

$ pdf2txt.py -o test1 download.pdf

나에게 화면 출력을주기. 내가 실행하면 :

$ dumppdf.py -o test2 download.pdf

를 내가 얻을 :

<trailer> 
<dict size="4"> 
<key>Info</key> 
<value><ref id="47" /></value> 
<key>ID</key> 
<value><list size="2"> 
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string> 
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string> 
</list></value> 
<key>Root</key> 
<value><ref id="46" /></value> 
<key>Size</key> 
<value><number>48</number></value> 
</dict> 
</trailer> 

<trailer> 
<dict size="4"> 
<key>Info</key> 
<value><ref id="47" /></value> 
<key>ID</key> 
<value><list size="2"> 
<string size="16">+&#13;N&#158;&#213;&#233;&#197;&#176;&#8;&#207;&#15;&#60;&#133;M&#140;&#4;</string> 
<string size="16">&#34;&#179;&#255;&#28;&#221;&#234;&#177;&#39;&#166;&#133;&#15;&#214;&#237;&#25;&#196;&#205;</string> 
</list></value> 
<key>Root</key> 
<value><ref id="46" /></value> 
<key>Size</key> 
<value><number>48</number></value> 
</dict> 
</trailer>

내가 다음에 어떻게해야합니까? 이 기능을 어떻게 작동시킬 수 있습니까?

출처

2017-11-26 user61629

모든 앱에 로그인 할 필요없이 액세스 할 수 있도록 PDF 링크를 업데이트하십시오. –

작동합니까? – user61629

"이 문서는 Scribd에서 제거되었습니다." --- 일반적으로 Google 드라이브 또는 보관 용 계정의 공개 공유는 정상적으로 작동합니다. – mkl

pdfminer가 해당 문서에서 사용 가능한 텍스트를 추출 할 수없는 이유는 문서에 텍스트가 포함되어 있지 않기 때문입니다!

더 정확하게, 그 워크 시트 PDF는 텍스트 그리기 지침, 지침을 (있는 텍스트처럼 보이는 결과를) 그리기 단순히 그래픽이 포함되어 있지 않습니다. 반면에 pdfminer와 같은 PDF 텍스트 추출기는 텍스트 그리기 지침 만 검사하므로 아무 것도 반환하지 않습니다.

그런 문서의 데이터를 마이닝하려면 텍스트 추출 대신 OCR을 사용하는 것이 좋습니다. 코멘트에서

당신은 어떻게 당신은 단지 그래픽 지침이 포함되어 있음을 알 수 있습니까

을 물어? 어떤 도구를 사용합니까?

PDF 브라우저 응용 프로그램 및 PDF 내부 지식에 대한 지식이 필요합니다.

PDF 브라우저로 평소에는 iText RUPS 또는 PDFBox PDF Debugger을 사용합니다. 그러나 다른 좋은 브라우저도 있습니다. Adobe 프리 플라이트에는 하나가 있습니다.

이러한 PDF 브라우저를 사용하면 PDF 그리기 지침이 포함 된 PDF의 콘텐츠 스트림을 검사 할 수 있습니다. 그리고 귀하의 경우에는 이러한 콘텐츠 스트림에 텍스트 그리기 지침이 포함되지 않고 단순히 그래픽 그리기 지침 만 포함됩니다.

PDF 내부에 대한 지식을 얻으려면 PDF 사양 ISO 32000-2 (이전 사양 인 ISO 32000-1은 최신 사양이 적합하지 않은 경우 좋은 출발점이기도 함) 실제 단어 PDF

출처

2017-11-30 14:28:01 mkl

나는이 문서가 스캔되었을 가능성이 있음을 알게되었다. 이 pdf에서 원본 스캔 이미지/jpg를 추출 할 수 있습니까? – user61629

아마도 python pdf 라이브러리가있을 것입니다. 불행히도 나는 파이썬에서 pdf 파일을 처리하지 않기 때문에 모른다. 그러나 정확하게 기억한다면 pdf의 페이지는 하나의 큰 이미지 리소스로 저장되지 않고 많은 작은 이미지 리소스의 모자이크로 저장됩니다. 일부 스캐너가 이미지 분석을 시도하고이를 분할하여보다 컴팩트 한 저장을 시도하기 때문에 스캐너 출력 간에는 완전히 드문 것은 아닙니다. – mkl

pdfminer pdf2text는 'FF'를 출력합니다.

답변

관련 문제