2016-11-19 11 views
0

PDF 파일에서 텍스트를 추출 중입니다. 이 코드는 다음과 같습니다.php에서 pdf의 텍스트 추출이 모든 PDF 파일에서 작동하지 않습니다.

<?php 

require("PdfToText.php"); 

$file = 'SamplePF' ; 
$pdf = new PdfToText ("$file.pdf") ; 
echo ($pdf -> Text) ; 

?> 

이 클래스는 일부 PDF 파일에서 잘 작동합니다. 이 클래스의 문제이다 : 그것은 현명하지 페이지 순서로 임의 페이지/라인의 텍스트를 가지고 일부 PDF 파일

  1. .
  2. 일부 PDF 파일의 경우 결과가 표시되지 않습니다.
  3. 일부 PDF 파일의 경우 한두 줄만 추출합니다.

몇 가지 해결책을 제안하십시오. 고맙습니다!

+0

일부 PDF 파일은 이전 버전이며 더 이상 동일한 구조를 사용하지 않습니다. 문제가있는 경우 Adobe에게 왜 공개 API를 게시하지 않았는지 문의하십시오. – Xorifelse

답변

0

이것이 정확한 문제가 될 수 있는지 확신 할 수 없기 때문에 추출 할 수 없지만 pdf에서 데이터를 추출 할 때 비슷한 점이 있습니다. 때때로 PDF 파일은 소유자 암호로 잠겨져 문서에 특정 제한을두고 저작권 문제를 보호하기 위해 내용을 변경하거나 내용을 복사하거나 추출하는 것을 허용하지 않습니다. Check this link for more info on owner passwords.

먼저 소유자 암호를 제거한 다음 해당 pdf를 추출해보십시오. 소유자 암호를 제거하려면 온라인에서 사용할 수있는 여러 가지 도구가 있으며 가장 적합한 도구를 선택할 수 있습니다.