2009-07-27 1 views
0

와 이탤릭체 < 내가 > 등, 나는 -raw 옵션으로 잘 작동 PDF 파일에서 텍스트를 추출하기위한 Xpdf를 사용하고 있지만, 지금 우리는 굵은 <B>처럼 HTML의 형식화하는 태그를 추출하기위한 파일을 HTML로 PDF 파일을 변환 할 본문. 옵션이있는 Xpdf도 작동하지만 pdf2html을 사용해 보았습니다. <sup> 및 <sub> 태그가없는 경우 신뢰할 수 없습니다.Perl에서 Acrobat Reader를 사용하여 여러 PDF 파일을 HTML 파일로 저장하는 방법이 있습니까?

이제 Acrobat Reader를 사용하여 PDF 파일을 HTML 파일로 저장하여 모든 HTML 서식 태그를 제공합니다.

Perl에서 Acrobat Reader를 사용하여 여러 PDF 파일을 HTML 파일로 저장하는 방법이 있습니까?

감사합니다.

+0

정말 Perl에서이 작업을 수행해야합니까, 아니면 외부 응용 프로그램 작업을 제어 할 수있는 것이 있습니까? –

+0

Perl에있을 필요는 없으며 다른 응용 프로그램도 할 수 있습니다. 유일한 점은 여러 파일을 변환 할 수 있어야한다는 것입니다. –

답변

2

PDF 스타일 정보는 완전히 임의적이며 의미있는 방식으로 HTML에 안정적으로 매핑 될 수 없습니다. 한 가지 전략은 -xml 옵션을 pdftohtml에 사용한 다음 LibXML을 사용하여 출력에 몇 가지 발견 적 방법을 적용하고 원본 문서의 적절한 HTML 근사값을 산출하는 것입니다.