2017-04-06 9 views
0

Android 앱에서 OCR 용으로 tesseract를 사용하고 있습니다. 중국어에 초점을 맞추고 있지만 jTessBoxEditor를 사용하여 .traineddata 파일을 만들려고 생각하면서 몇 가지 키워드 만 인식하면됩니다. 중국어 TessData 파일에서 어떤 글꼴을 사용하는지 알고 싶습니까? https://github.com/tesseract-ocr/tessdataTesseract TessData 교육에 사용되는 글꼴

또는 chi_tra.traineddata 파일을 편집하여 몇 가지 키워드 만 인식 할 수있는 방법이 있습니까? 내가 이것을하고있는 주된 이유는 파일 크기가 63.4 MB이고 마무리하기 전에 tesseract가 2 ~ 3 분 정도 걸리기 때문입니다. 정확도는 좋지만 느립니다.

답변

1

tesseractgithub에는 tesseract 개의 모든 파일이 있습니다. 목록에서 지원되는 중국어 번체 특정 글꼴을 확인할 수 있습니다.

GitHub의에서 폴더 heretesseract-ocr/langdata에서, 당신은 훈련에 사용되는 단어를 찾기 위해 chi_tra.wordlistchi_tra 내부 폴더를 확인할 수 있습니다.