나는 Tesseract에서 작동하도록 Lincoln 글꼴을 얻으려고 노력하고 있으며, 심지어 wildly complicated training process을 통과 한 후에도 심한 결과를 얻고 있습니다.Tesseract OCR 엔진에 Blackletter 글꼴 지원 추가
이 글꼴은 그래서 그래, 그것은 조금 까다로운, 모습입니다 :
나는 조심스럽게 훈련 이미지를 만든 다음 상자 파일을 만들기 위해 그것을 사용했습니다. The training image is here (25MB!). 이미지는 300 DPI이며, 대표적인 문자가 수직 및 수평으로 잘 배치되어 있습니다.
트레이닝 이미지 용 상자 파일을 만들었고 제대로 작동했습니다. a box file editor을 사용하여 올바른지 확인했습니다.
이 상자 파일/tif 파일을 가져 와서 교육 데이터를 만드는 데 사용했습니다. 나는 Tesseract가 제공 한 30 or so other sample images/fonts도 마찬가지였다.
나는 unicharset 파일을 만들었습니다.
font_properties 파일을 만들었습니다. fraktur를 사용해야하는시기에 대해서는 사이트에 대한 지침이 없습니다.
eng.lincoln.box 0 0 0 0 1
을 그리고이 방법 (프랑크푸르트 체 OFF) :
eng.lincoln.box 0 0 0 0 0
그리고 마지막으로, 내가 함께하고 사전없이 시도했다 그래서 나는이 방법 (링컨 동안 프랑크푸르트 체) 모두를 시도했습니다 파일. 사전 파일을 사용했을 때 검색 엔진 인 스핑크스의 단어 맵이었으며 일반적인 단어는 약 15K 개, 희귀 한 단어는 약 20K 개였습니다.
모든 경우에 OCR 처음 두 줄의 this file (3MB)을 시도 할 때 품질은 최악입니다. 오히려 얻는 것보다 :
United States Court of Appeals
for the Federal Circuit
를 내가 얻을 :
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
이유는 무엇입니까?
, 내가 큰 교육 파일을 만들어이 일 때까지 반복 훈련 과정을 반복 : font_properties에서
글꼴 이름이 같아야합니다. 도와 주셔서 감사합니다. – mlissner