나는 pdf 문서에서 지정된 텍스트를 추출 할 프로젝트에 참여하고 있습니다. 나는 이런 종류의 추출에 대한 경험이 없다. 한 가지 문제는 문서의 모든 텍스트를 덤프하려는 것이 아니라는 것입니다. 오히려 PDF의 특정 필드 만 추출하는 방법이 있습니까? 이런 식으로 사용할 수있는 PDF 템플릿의 개념이 있습니까?텍스트 추출 프로젝트 - 특정 행/항목 만 PDF에서 추출하기위한 최상의 도구입니까?
Apple의 Automator를 사용하려고합니다. 모든 텍스트를 가져올 수 있지만 지정된 텍스트는 가져올 수 없습니다. 이상적으로, 페이지의 누군가가 예를 들어 30 개의 별개의 텍스트 행을 가지고 있고 그 중 20 개의 행을 '카탈로그 항목'으로 지정하고 Automator 스크립트에서 20 개의 행만 가져 오도록하고 싶습니다.
최상의 워크 플로/추출 도구에 대한 아이디어가 있으십니까? 필자는 Apple Pages, Automator, Ruby 또는 Python과 같은 소비자 수준의 항목 만 스크립팅 언어로 사용하는 것을 선호합니다. 이 당신은 루비에 Origami을 사용할 수 있습니다
호기심 왜 사람들이 투표를 마감합니까? – timpone
추출하려는 PDF 문서가 태그가 지정된 pdf 형식입니까? – alexis
태그를 달았는지 여부를 선택할 수 있습니다. 이것들은 최종 사용자가 생산할 수 있고 얼마나 잘 (또는 전혀) 태그가 달린 pdf가 지원되는지를 확신 할 수없는 문서 일 것입니다. 이것은 처음부터 끝까지 해결할 수 있으므로 어떤 아이디어라도 감사하게 생각합니다. – timpone