2012-03-25 1 views
2

나는 pdf 문서에서 지정된 텍스트를 추출 할 프로젝트에 참여하고 있습니다. 나는 이런 종류의 추출에 대한 경험이 없다. 한 가지 문제는 문서의 모든 텍스트를 덤프하려는 것이 아니라는 것입니다. 오히려 PDF의 특정 필드 만 추출하는 방법이 있습니까? 이런 식으로 사용할 수있는 PDF 템플릿의 개념이 있습니까?텍스트 추출 프로젝트 - 특정 행/항목 만 PDF에서 추출하기위한 최상의 도구입니까?

Apple의 Automator를 사용하려고합니다. 모든 텍스트를 가져올 수 있지만 지정된 텍스트는 가져올 수 없습니다. 이상적으로, 페이지의 누군가가 예를 들어 30 개의 별개의 텍스트 행을 가지고 있고 그 중 20 개의 행을 '카탈로그 항목'으로 지정하고 Automator 스크립트에서 20 개의 행만 가져 오도록하고 싶습니다.

최상의 워크 플로/추출 도구에 대한 아이디어가 있으십니까? 필자는 Apple Pages, Automator, Ruby 또는 Python과 같은 소비자 수준의 항목 만 스크립팅 언어로 사용하는 것을 선호합니다. 이 당신은 루비Origami을 사용할 수 있습니다

+1

호기심 왜 사람들이 투표를 마감합니까? – timpone

+0

추출하려는 PDF 문서가 태그가 지정된 pdf 형식입니까? – alexis

+0

태그를 달았는지 여부를 선택할 수 있습니다. 이것들은 최종 사용자가 생산할 수 있고 얼마나 잘 (또는 전혀) 태그가 달린 pdf가 지원되는지를 확신 할 수없는 문서 일 것입니다. 이것은 처음부터 끝까지 해결할 수 있으므로 어떤 아이디어라도 감사하게 생각합니다. – timpone

답변

0

인 애플 페이지에서 지원하는 방법을 잘 모르겠 -

들으

편집 # 1 은이 작업을 수행하는 하나 개의 방법이 될 수있는 태그의 PDF의 모양 구문 분석, 분석, 및 위조 PDF 문서 또는 파이썬에 해당하는 내용 : Origapy, Ruby 기반 Origami 용 간단한 파이썬 인터페이스를 분석하도록 설계된 프레임 워크.

+0

thx - 오리 가미를 사용했지만 태그가 달린 pdf를 처리하지 못했습니다. – timpone

0

루비의 경우 PDF 구문 분석 및 메타 데이터와 콘텐츠에 액세스하기 위해 pdf-reader을 시도해보십시오. 관심있는 특정 항목을 추출하는 것은 다른 이야기이지만, 수행하는 방법은 원하는 데이터 형식에 따라 달라집니다.

+0

thx for answer - '다른 이야기'에 동의했습니다. 이 시점에서 우리는 형식을 제어 할 수 있으므로 Apple Pages에서 자동 텍스트 추출 시스템의 손 문제에 대한 최고의 스토리를 만들고 싶습니다. – timpone

1

파이썬의 경우 최상의 선택은 아마도 PDFMiner 일 것입니다. 모든 텍스트 문자열에 대한 좌표를 추출 할 수 있으므로 양식에서 직사각형을 직접 고치고 그 안에 들어있는 것을 골라 낼 수 있습니다. 모두 상당히 낮은 수준이지만 PDF는 불행히도 꽤 낮은 수준의 형식입니다.

PDF의 구조에 대해 이미 잘 알고 있지 않으면 API와 설명서가 거의없는 것을 알 수 있습니다. SO를 포함하여 사용 예제를 둘러보십시오.