2009-10-31 5 views
5

C# .net에서 pdf 파일의 텍스트를 추출 할 클래스가있는 라이브러리가 있습니까? 몇 가지 시도했지만 문서가 끔찍한, 그래서 나는 그것을 지상에서 얻을 수 없었습니다. 또한 플러스가 될 이미지를 추출하는 클래스를 제공하는 경우. 어떤 제안? 미리 Thx.C#을 사용하여 PDF를 실행 가능한 텍스트로 변환

또한 기존 응용 프로그램에 구현할 수 있어야합니다.

답변

3

PDFKit.NET을 사용해 보셨습니까? 합리적인 문서와 좋은 예가 있습니다. 이것은 서버 환경을 위해 설계 되었기 때문에 조금 비싸다.

편집 다음은 SourceForge의 오픈 소스 라이브러리 iTextSharp입니다. 오픈 소스 프로젝트에는 무료입니다. 나는 그것을 사용하지 않았지만 유망 해 보인다. 많은 코드 예제가있는 Here is a tutorial

+1

+1 무료입니다. –

0

Google은 이미지 변환을 위해 눈이 내리는 소프트웨어를 사용했습니다. 그것은 분명히 text extraction도 지원합니다. 그러나, 그것은 자유롭지 않다.

+0

링크가 작동하지 않는 이유를 모릅니다. 하지만 당신은 snowbound.com -> 솔루션 -> 텍스트 추출에 갈 수 있습니다. –

1

여기에 갈 수있는 몇 가지 방법이 있습니다. 원본 PDF의 서식 (예 : 단락 및 기타 레이아웃 요소)을 유지할지 여부에 따라 많이 달라질 수 있습니다.

상업용 솔루션을 고려 중이라면 요구 사항에 맞는 두 가지 제품을 제공합니다. OnePDF SDK는 PDF에서 텍스트를 일반 텍스트로 가져 오는 ExtractText() 및 ExtractText2()를 한 번에 호출합니다.

이 호출의 결과는 매우 단순하며 원본 레이아웃 요소가 많이 손실됩니다. 간단한 텍스트 추출에는 좋지만 PDF에 표 형식의 데이터가 포함되어 있으면 좋지 않을 수 있습니다.

테이블을 다루는 경우 더 멋진 대안은 대신 리치 텍스트로 끌어 올 수 있습니다. 우리는 하나의 함수 호출을 사용하는 비즈니스 문서 용 EasyConverter SDK 도구를 제공합니다.

EasyConverter SDK를 사용하면 원본 PDF의 레이아웃이 유지됩니다.

모두 C#을 지원하므로 관심이 있으시면 www.pdfonline.com에서 평가판을 확인하십시오. 나는 공급 업체를 위해 일하므로 자신의 아이를 사랑하는 어머니의 일종으로이 제안을 받아들이지 :-) 나는 stackoverflow.com에서 오랫동안 코드 스 니펫을 검색했지만 최근에 게시를 시작 했으므로 어느 API 든 질문이 있으면 알려 주시면 도움이됩니다. 건배!

1

Docotic.Pdf library은 PDF 파일에서 텍스트와 이미지를 추출 할 수 있습니다.

일부 페이지에서만 전체 문서에서 텍스트를 추출 할 수 있습니다. 라이브러리는 일반 텍스트와 좌표가있는 텍스트 청크를 추출 할 수 있습니다.

PDF에서 이미지를 추출 할 수 있습니다 (JPEG 및 TIFF 파일). PDF 파일에서

면책 조항

  • Extract text PDF 파일
  • 에서
  • Extract images : 여기

    은 당신의 작업에 대한 샘플의 커플입니다 나는 비트의 기적, 라이브러리의 공급 업체에 대한 작동합니다.