2009-07-09 8 views
0

계약 작업을 위해, 나는 독일 연방 의회 (Federal Parliament of Germany)에서 많은 오래된 스캔 된 그래픽 전용 총회 토론 프로토콜 PDF를 디지털화해야합니다.의회 토론회의 PDF에 대한 광학 문자 인식

문제는 이러한 파일의 대부분은 2 열 형식을 가지고있다 :

Sample Protocol http://sert.homedns.org/img/btp12001.png

내 다음 질문에 대한 답을 읽고 싶어요

:

  1. 것은 내가 나눌 수있는 방법 그들을 OCR로 보내기 전에 두 개의 열을?
  2. 어떤 상용 오픈 소스 OCR 소프트웨어 또는 프레임 워크를 추천하며 그 이유는 무엇입니까?

도구, 프로그래밍 언어, 프레임 워크 등 모든 것이 좋습니다. 당신이 jub^__ ^을 위해 잘린다고 생각한다면 추천하는 밀교 제품, 도서관을 망설이지 말고 !!

UPDATE :이 문서는 이미 의회 O_O에 의해 스캔 : (위의 이미지와 동일) sample하고 많은 거기에 내가 빨리 그래서 인쇄 사본을 가져 갈 수 없어 계약을 이행 할 동일한 문서를 잘라내어 직접 스캔하십시오. 너무 많은 것들이 있습니다.

최고 감사합니다,
세틴 르트

답변

0

컷 미들 페이지를 스캔하기 전에.

+0

내가 2 번 upvote 할 수 있다면 나는 – Gavin

+0

hehe 그들이 온라인으로 이미 이용 가능하다 o__O –

+0

업데이트를 보아라. hehe를 분명히하지 않는 것에 대해 미안하다. –

0

사용중인 OCR 소프트웨어에 따라 다릅니다. 몇 년 전 OCR API에 대한 작업을 했었지만 그 이름을 기억할 수는 없지만 대안이 많이 있다고 생각합니다. 어쨌든이 API를 사용하면 페이지의 영역을 OCR로 정의 할 수있었습니다. 열의 위치를 ​​대략적으로 알고있는 경우 SDK를 사용하여 페이지의 일부를 매핑 할 수있었습니다.

0

나는 옴니 푸지 17 같은 것을 사용합니다. 배치 모드가있어서 문서를 폴더에 넣을 수 있으며, 그 폴더에 그려진 곳을 그 결과를 다른 폴더에 넣을 수 있습니다. 레이아웃을 자동 인식하거나, 열을 포함하거나, 기본 레이아웃을 열로 설정할 수 있습니다. 출력이 어떻게 표시되는지 많은 옵션을 설정할 수 있습니다. 그러나 데모를 시도해보십시오. 나는 지금 나의 문서의 일부에서 ligaturs에 문제가있다. 따라서 "fliegen"과 같은 단어가 "flgen"으로 나오므로 반드시 철자를 써야합니다.

0

http://www.wisetrend.com/wisetrend_ocr_cloud.shtml (온라인, OCR 용 REST API)을 살펴보십시오. 강력한 ABBYY OCR 엔진을 기반으로합니다. 무료 계정을 만들어 몇 개의 이미지로 시도하여 2 열 형식을 처리하는지 확인할 수 있습니다 (이미지를 처리 ​​할 수 ​​있어야 함). 또한 여러 설정을 사용할 수 있습니다 (API 설명서 참조). 두 열을 사용하기 전에 일부 설정을 조정해야 할 수도 있습니다. 마지막으로, 최후의 해결책으로 2 열 분할이 항상 같은 위치에있는 경우 입력 이미지를 두 개의 이미지로 분할하는 프로그램을 만들 수 있습니다 (일부 표준 이미지를 사용하여 이것을 작성하는 것이 어렵지 않아야 함) 처리 라이브러리)를 생성 한 다음 결과 이미지를 OCR 프로세스에 공급합니다.