PDF에서 텍스트를 추출하는 데 유용한 라이브러리가 있습니까? 나는해야한다면 그것을 지불 할 용의가있다. C# 또는 고전적인 ASP (VBScript)에서 작동하는 것이 이상적 일 수 있으며 페이지와 PDF를 분리 할 수 있어야합니다. This question은 특히 pdftotext과 같은 흥미로운 내용이 있지만 가능한 경우 외부 명령 줄 앱을 호출하
계약 작업을 위해, 나는 독일 연방 의회 (Federal Parliament of Germany)에서 많은 오래된 스캔 된 그래픽 전용 총회 토론 프로토콜 PDF를 디지털화해야합니다. 문제는 이러한 파일의 대부분은 2 열 형식을 가지고있다 : Sample Protocol http://sert.homedns.org/img/btp12001.png 내 다음 질문
OCR 데이터가 내장 된 PDF 파일이 있습니다. (그래서 나는 이미 그들을 orcd) 그래서 그들은 검색 할 수 있습니다. 이제 tomcat6 검색 서버에 넣기 때문에이 OCR 데이터를 추출하고 싶습니다. 이 작업을 수행하려면 일반 OCR 데이터가 필요합니다. 내 질문에,이 PDF 파일에서 임베디드 OCR 데이터를 추출 할 수 있습니까? 좌표가있는 파일을