2015-01-06 4 views
0

왜 PDF 파일을 구문 분석하려면 글꼴 [FontName.afm] 파일이 필요하고 itextsharp는 모든 PDF를 구문 분석 할 수 있습니까? 예를 들어, PDF 파일이 그 fontface 새로운 텍스트를 포함하기위한Itextsharp PDF 파싱

, 그래서 내 질문은 [글꼴 이름] .afm이이 질문이 교차했다

+0

* [FontName.afm] 파일을 구문 분석하는 글꼴의 필요 이유 PDF 파일 * - afm 파일에는 글꼴 메트릭이 포함되어 있으며 올바른 순서로 글리프를 가져 오기 위해 추출하는 동안 적어도 글꼴 글리프 너비가 필요합니다. 그러나 PDF 파일에는 표준 글꼴 14 개를 제외한 글꼴의 글꼴 너비가 포함되어 있으며 해당 글꼴의 메트릭은 iText (Sharp) 라이브러리에 포함되어 있습니다. 따라서, I Text (Sharp)는 텍스트 추출을 위해 추가 afm 파일을 필요로하지 않습니다. – mkl

답변

1

파일을 제공하지 않고 PDF 파일에서 텍스트를 구문 분석 할 수 있다는 것입니다 SO 및 iText 메일 링리스트에 게시 됨. 나는 SO의 메일 링리스트에 내 대답을 복사 해요 :

왜 글꼴 파일 [FontName.afm] itextsharp 라이브러리

그 파일이 글꼴 메트릭 (AFM = 어도비을 포함 할 필요가있다 글꼴 메트릭). 텍스트 조각 (높이, 너비)의 크기를 계산하는 데 필요합니다. iTextSharp와 함께 제공되는 14 개의 AFM 파일은 14 개의 표준 유형 1 글꼴과 일치합니다. 이 글꼴은 모든 PDF 뷰어가 렌더링 할 수 있어야하는 글꼴이므로 이러한 글꼴을 포함 할 필요가 없습니다 (예 : PDF/A의 컨텍스트에서 글꼴 포함이 필요하지 않은 경우).

무료 전자 책 "The Best iText Questions on StackOverflow"을 다운로드하고 자세한 내용은 글꼴 관련 섹션에서 질문에 대한 답변을 읽어보십시오.

은 참조 : itextsharp가에서 텍스트를 추출하는 데 유용합니다 fontface

그 글꼴 파일이없는

필요한 대부분의 정보 (예 : 문서에 사용 된 각 글리프의 너비)가 문서 내에 저장되므로 AFM 파일을 사용하여 텍스트를 추출 할 필요가 없습니다. iTextSharp는 PDF에서 텍스트를 추출하는 데 유용하지만 때로는 사용하는 도구에 상관없이 일반적으로 텍스트를 추출 할 수 없습니다. 또한 https://www.youtube.com/watch?v=wxGEEv7ibHE

참조 : 더 정교한 설명은이 비디오를 시청하십시오