계약 작업을 위해, 나는 독일 연방 의회 (Federal Parliament of Germany)에서 많은 오래된 스캔 된 그래픽 전용 총회 토론 프로토콜 PDF를 디지털화해야합니다.의회 토론회의 PDF에 대한 광학 문자 인식
문제는 이러한 파일의 대부분은 2 열 형식을 가지고있다 :
Sample Protocol http://sert.homedns.org/img/btp12001.png
내 다음 질문에 대한 답을 읽고 싶어요:
- 것은 내가 나눌 수있는 방법 그들을 OCR로 보내기 전에 두 개의 열을?
- 어떤 상용 오픈 소스 OCR 소프트웨어 또는 프레임 워크를 추천하며 그 이유는 무엇입니까?
도구, 프로그래밍 언어, 프레임 워크 등 모든 것이 좋습니다. 당신이 jub^__ ^을 위해 잘린다고 생각한다면 추천하는 밀교 제품, 도서관을 망설이지 말고 !!
UPDATE :이 문서는 이미 의회 O_O에 의해 스캔 : (위의 이미지와 동일) sample하고 많은 거기에 내가 빨리 그래서 인쇄 사본을 가져 갈 수 없어 계약을 이행 할 동일한 문서를 잘라내어 직접 스캔하십시오. 너무 많은 것들이 있습니다.
최고 감사합니다,
세틴 르트
내가 2 번 upvote 할 수 있다면 나는 – Gavin
hehe 그들이 온라인으로 이미 이용 가능하다 o__O –
업데이트를 보아라. hehe를 분명히하지 않는 것에 대해 미안하다. –