2011-07-18 3 views
1

PDF에서 제목 추출 (메타 데이터 사용)에 관해 많은 질문이있는 것 같습니다. 그러나 대부분의 제목은 메타 데이터에 존재하지 않는 것처럼 보입니다. http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html을 사용할 때 이것을 발견했습니다.PDF에서 실제 텍스트 제목 추출

어쨌든 실제로 PDF에서 텍스트 제목을 검색 할 수 있습니까? 텍스트 파일로 내보내려고했지만 검색 할 때 일관된 형식이 없습니다. 서식이있는 문서로 pdf를 내보내는 방법이 있습니까? 글꼴 크기> = 14를 확인 하시겠습니까?

+0

참조 http://stackoverflow.com/a/33868220/15485 –

답변

0

아주 좋은 질문입니다. PDF를 작성하는 응용 프로그램은 사용 가능한 메타 데이터 필드에 유용하지 않습니다.

예로 들어 pdflatex을 가지고 하나는 프리앰블의 \ 표제 {...}\ 저작 {...}을 설정하는 경우에도, 이러한 정보는 메타 데이터에 반영되지 않는다. 빠른 검색 한 후, 용액을 상기 프리앰블의 블록을 도입하는 것으로 나타나는 pdflatex 의해서만 판독된다 [1] :

다음의 관련 메타 데이터 필드에 배치
\pdfinfo 
{ 
    /Title{...} 
    /Author{...} 
    ... 
} 

... PDF 그래도 이것이 필요하다는 것은 이상합니다.

워드 또는 라이터와 같은 워드 프로세서를 말할 수 없습니다. 이러한 메타 데이터 필드는 사용자가 수동으로 설정해야한다고 가정합니다.

아마 당신의 PDF가 당신에 의해 생성되지 않으면 당신의 문제에 접근 할 수있는 유일한 방법은 경험적 접근법 일 것입니다. [2] 그것이 당신이 원하는 것과 비슷한 것을하는 것처럼 보이지만 PDF가 얼마나 잘 출판되었는지에 달려 있다고 생각합니다.이 도구는 과학적 종이 지향적 인 것 같습니다.

적어도 도움이되기를 바랍니다.

[1] http://wlug.org.nz/PdfLatexNotes [2] http://www.molspaces.com/d_cb2bib-metadata.php

+0

퀘스트를 계속, 나는 또 다른 SO (즉, 어느 정도 관련이 HTTP 질문을 발견 : // 유래를 * pdfssa4met * (https://code.google.com/p/pdfssa4met/)라는 도구에 링크되어있는 유망한 것으로 보이는 PDF 파일 (.com/questions/1813427/pdfs-of-research-papers) – chrisjkirkham