2008-10-24 4 views
0

그래서 텍스트를 추출해야하는 거대한 PDF 파일 모음이 있습니다. 파일은 암호화되어 있지만 암호는 알고 있습니다. 나는 텍스트를 추출하는 과정을 자동화하는 방법을 찾고있다.

Acrobat 전문가가 직접 파일을 열 수 있으며 비밀번호를 입력하여 보안을 제거한 다음 .txt 파일로 저장할 수 있습니다. 그러나 600 파일을 일괄 처리로 자동화하는 방법은 없습니다.

이 문제를 해결하는 데 도움이되는 도구를 찾고 있습니다. 나는 Perl에 능숙하므로 CPAN에서 다양한 PDF 처리 모듈을 시도했지만 암호화 된 문서를 읽지 못하고있다. 누구든지이 문제에 대한 해결책이 있습니까?복수의 PDF 파일에 대한 비밀번호 제거

답변

-1

프로그래밍 방식으로 적절한 방법을 찾을 수 없다면 AutoIt입니다.

"Windows GUI를 자동화하기 위해 고안된 프리웨어 BASIC 계열의 스크립팅 언어"로, 커피를 마시면서 손가락으로 가리키고 클릭 할 수 있습니다.

3

pdftotext가이를 수행 할 수 있어야합니다. poppler 라이브러리와 함께 제공되며 xpdf (poppler는 xpdf에서 제공됨)에서도 찾을 수 있습니다.

0

Desstan과 동의하는 AutoIt 또는 AutoHotkey를 사용하면 다른 방법으로 자동화 할 수없는 GUI로 모든 작업을 자동화 할 수 있습니다. 속도가 느리고 예기치 않은 상황에서 멈출 수도 있지만 (학습 곡선이 있지만 적어도 AutoHotkey 포럼은 매우 유용합니다.하지만 Acrobat Professional을 사용하여 스크립트를 작성해야합니다 ...).

그리고 사실 Xpdf은 텍스트 추출기와 decryption을 포함하여 흥미로운 도구로 보입니다.

4

pdftk를 살펴보십시오. 콘솔 기반이며 암호로 보호 된 PDF 파일을 처리합니다.

0

CAM::PDF은 PDF를 암호화하고 해독 할 수있는 오픈 소스 Perl 라이브러리입니다. 현재는 소유자와 사용자 암호가 같은 40 비트 암호화 만 수행 할 수 있지만 현재 사용자가 128 비트 암호화 및 암호 해독을 허용하는 패치를 제출했습니다. 다음 주에 새 버전을 출시하기를 바랍니다.

CAM :: PDF는 텍스트를 추출하는 데별로 좋지 않습니다.

1

unsecured.pdf foopass 출력 input_pw

pdftk의 secured.pdf 당신은

그것은 "해독"옵션이라고 PDF Password Cracking 유틸리티에서 특별한 기능을 사용하려고 할 수 있습니다 - 당신이 채울 수 있습니다 비밀 번호에 aтв PDF 파일의 무방비 사본을 확인하십시오