2011-12-03 2 views
3

OCR 엔진의 레이아웃 정보를 PHP로 구문 분석하려고합니다. 단, 세부 사항을 제공하지는 않습니다.OCR 엔진에서 특정 레이아웃 정보 추출 및 구문 분석

Tesseract (Leptonica 포함)와 설형 문자가 모두 설치되어 있습니다. 기발한 설형 문자는 레이아웃을 감지하는 데 탁월합니다 (텍스트 란 무엇인지, 그림은 무엇인지 등). 입력은 텍스트와 이미지가 모두 포함 된 PNG 파일입니다 (텍스트는 분명히 이미지의 일부입니다).

모두 생각하는 것 같습니다. txt 또는 html 또는 hocr 출력을 원합니다. 원하는 것은 텍스트라고 생각되는 좌표와 이미지라고 생각되는 좌표입니다.

쐐기 모양에는 Cuneiform 2000 형식의 "네이티브"출력 옵션이 있으며 메모장에서 열면 ++로 압축되어 있음을 알 수 있습니다. 나는 zip과 gzip으로 압축을 풀어 보았지만 인식하지 못했습니다. 네이티브 Cuneiform 형식에 대한 Google의 정보도 없습니다.

누구나 Tesseract 또는 Cuneiform ...에서 레이아웃 정보를 추출하는 방법을 알고 있거나 텍스트 블록과 그림이 포함 된 이미지의 레이아웃을 파악할 수있는 아이디어가 있습니까?

답변

3

ABBYY FineReader Engine을 살펴보십시오. 그것은 좌표를 포함하여 인식 된 텍스트에 대한 최대 정보를 제공하는 매우 똑똑한 API를 가지고 있습니다. 무료는 아니지만 비즈니스 소프트웨어의 경우 ABBYY OCR 기술은 귀사 제품에 심각한 가치를 부여 할 수 있습니다.

PHP로 웹 응용 프로그램을 작성 중이므로 ABBYY OCR Engine 웹 API (www.ocrsdk.com)를 사용할 수 있습니다. 지금은 비공개 베타 버전이므로 지금은 무료입니다.

+0

ABBYY는 레이아웃이 뛰어나지 만 값이 비싸며 가능한 한 빠르고 저렴하게 작업하려고합니다. 나는 속도가 충분히 빠르거나 비용이 낮아서 제 목적에 실용적이지 않을 것이라고 확신하지 못합니다. 그러나 무료 베타 버전이므로 가입하고 테스트 해 보겠습니다. 정보 주셔서 감사합니다! – Alasdair

+0

ABBYY에서 일하는 경우, 마감일이 지났기 때문에 베타 요청을 완료하십시오. 신속하게 승인되지 않으면 다른 해결책으로 해결할 것입니다. 이름 : Alasdair, 일반적인 이름이 아닙니다. 감사. – Alasdair