저는 잘 작동해온 tesseract-ocr (.NET에서)을 사용하고 있습니다. 내가 먹인 이미지는 ascii 전용입니다 (A-z0-9). 특수 문자를 사용하지 않도록 말할 수있는 방법이 있습니까?tesseract-ocr은 ascii 만 사용합니까?
1
A
답변
0
위의 Google 포럼에서이 질문에 대한 답변은 a new thread입니다. 첫 번째 대답은 아마도 가능하지 않다고 결론 짓습니다.
Tesseract와 함께 제공되는 언어 데이터 파일을 사용하는 경우, 내가 아는 한 올바른 내용입니다. 그러나 training on your own box files 인 경우 출력 문자를 매우 쉽게 제한 할 수 있습니다. 실질적으로 자동입니다. unicharset_extractor
이 상자 파일에서 비 ASCII 문자를 찾지 못하면 출력에 비 ASCII 문자가 표시되지 않습니다.
Tesseract를 처음 사용하기 시작했을 때 나는 interpuncts 및 기타 unusual characters에 의해 좌절되었으며, 내 자신의 상자 파일에 대한 교육으로 문제가 해결되었습니다. 심지어 Tesseract training data을 시작점으로 사용할 수도 있습니다.
0
은 tessedit_char_whitelist 구성 옵션을 사용합니다.
적극적인 포럼이있어 좋은 장소 : http://groups.google.com/group/tesseract-ocr/ –