2008-09-05 6 views
4

PDF에서 텍스트를 추출하는 데 유용한 라이브러리가 있습니까? 나는해야한다면 그것을 지불 할 용의가있다.C# 또는 고전적인 ASP (VBScript)를 사용하여 PDF에서 텍스트를 추출하는 좋은 방법은 무엇입니까?

C# 또는 고전적인 ASP (VBScript)에서 작동하는 것이 이상적 일 수 있으며 페이지와 PDF를 분리 할 수 ​​있어야합니다.

This question은 특히 pdftotext과 같은 흥미로운 내용이 있지만 가능한 경우 외부 명령 줄 앱을 호출하는 것을 피하고 싶습니다.

답변

4

Windows에 내장 된 IFilter 인터페이스를 사용하여 지원되는 모든 파일 형식에서 텍스트 및 속성 (작성자, 제목 등)을 추출 할 수 있습니다. COM 인터페이스이므로 .NET interop 기능을 사용해야합니다.

Adobe에서 무료 PDF IFilter 드라이버를 다운로드해야합니다.

0

여기 좋은 목록입니다 Open Source Libs for PDF/C#

이들의 대부분은 PDF를 생성하는 방향으로 준비되어 있습니다,하지만 그들은뿐만 아니라 기능을 읽을 수 있어야합니다.

뿐만 아니라이 하나있다 : iText

난 단지 전에 iText를 연주했다가. 전공이 없습니다.

0

우리는 Aspose을 사용해 좋은 결과를 얻었습니다.

0

Docotic.Pdf library은 PDF 문서에서 형식이 지정된 텍스트 또는 일반 텍스트를 추출하는 데 사용할 수 있습니다.

라이브러리는 모든 버전의 PDF 문서를 읽을 수 있습니다 (최신 공개 표준까지). 페이지 추출은 라이브러리에서도 지원됩니다.

면책 조항 :

링크 코드 샘플 나는 라이브러리의 공급 업체에 대한 작동합니다. 승인 된 대답에에

0

추가 :이 텍스트 인덱싱을위한 어도비 IFilter를 대체 할 대안 상용 솔루션도있다 (유사한 API를 제공하는이 또한 추가 프리미엄 기능을 제공) :

  1. Foxit PDF IFilter은 : 더 빨리 텍스트를 제공합니다 Adobe의 플러그인과 비교하여 색인 생성.
  2. PDFLib PDF iFilter : 손상된 PDF 문서에 대한 지원과 사용자 고유의 쿼리를 실행하는 추가 API가 포함됩니다.

클래식 ASP 또는 VB6와 같은 관리 .NET 애플리케이션과 기존의 프로그래밍 언어에서 모두 사용할 수있는 단일 도구를 찾고 있다면 다음이는 .NET 및 ActiveX를 모두 제공으로 상업 ByteScout PDF Extractor SDK이 딱 맞는 곳이다/COM API.

면책 조항 : ByteScout에 근무