2010-12-29 7 views
3

ISBN 번호 (ISBN : 978-83-7380-900-0)를 인식하는 iPhone 응용 프로그램에서 작업 중입니다. tesseract를 사용하지만 잘 작동하지 않습니다. 동일한 엔진을 사용하여 더 잘 작동하는 다른 응용 프로그램을 볼 수 있습니다.tesseract의 결과를 개선하여 숫자를 인식하는 방법

문자를 제한하려면이 구성 라인을 사용하십시오. tess-> SetVariable ("tessedit_char_whitelist", "SN :X-"); 그래서 "I"는 모두 "1"로 변환되고 "B"는 8로 변환됩니다.이 문자를 사용하면 실수하지 않을 것입니다. 그런 다음 정규 표현식을 사용하여 인식 된 텍스트의 정확한 부분을 찾습니다.

또한 이미지를 자르므로 tesseract는 이미지의 일부만 인식합니다 (isbn이 보입니다. 카메라 오버레이에 색상을 붙이기 때문에 올바른 위치에 코드를 넣어야합니다) 이미지 크기를 1000px로 조정합니다. 너비 (다른 크기도 시도)

빛이 좋을 때는 꽤 잘 작동하지만 조명이 완벽하지 않을 때는 제대로 인식하기가 정말로 어렵습니다.

isbn 번호의 마지막 자리는 제어 합계입니다.

더 좋게하려면 어떻게해야합니까? 주어진 정규 표현식에서만 텍스트를 인식하는 tesserect를 말할 수있는 방법이 있습니까? 어쩌면 내가 먼저 이미지로 뭔가를해야합니까? 제대로 인식되지

샘플 이미지는 : http://img412.imageshack.us/i/img0367si.jpg/
http://img264.imageshack.us/i/img0361d.jpg/

답변

2


내가 몇 가지 사전 처리를 사용하고 결과는 순간에 아주 좋다. (정규화 및 자동 임계 값) 나는 아이폰에 대한 간단한 이미지 처리와 함께 해. 나는 또한 2 배 확대와 함께 이미지를 만들고있다. 유일한 문제는 퍼지 이미지를 만드는 것이 정말 쉽다는 것입니다. 그런 다음 아무 것도 인식 할 수 없게됩니다. ocr 인식 프로세스는 약 4 초가 걸립니다. 그것은 300 x 109 : 19KB 이미지에서 작동합니다. 저는 어떻게하면 더 빨리 작업 할 수 있는지 궁금해서 여러 이미지를 처리하고 모두 처리 할 수 ​​있습니다.