2014-09-22 6 views
0

는 정팔 포체 - OCR의 v3.02.02 윈도우 7에 설치하고, 명령 줄을 통해 그것을 사용했다 :마크 업 글꼴 스타일 (이탤릭체) 정팔 포체의 OCR은

텍스트 파일로

1) 출력 PNG로 텍스트 : 정팔 포체 이미지 .png txtfile 2) png 텍스트를 html 파일로 출력합니다. tesseract image.png htmlfile hocr

출력 텍스트 또는 HTML 파일의 기울임 꼴 텍스트를 마크 업할 수 있어야합니다. 어떻게해야합니까 (API 모드에서는 사용하지 않는 것이 좋습니다).

답변

0

Tesseract가 출력 한 hocr에는 글꼴 관련 정보가 아닌 단어 좌표와 신뢰도 만 포함됩니다. 따라서 명령 줄 모드에서 원하는 것을 출력하도록 소스 코드를 수정하거나 API를 사용해야합니다.

+0

고맙습니다. 기울임 꼴 텍스트 마크 업을 출력하는 몇 가지 예제 코드를 사용하여 편집해야 할 파일을 강조 표시 할 수 있으면 고맙게 생각합니다. 또는 Tesseract API에 익숙하지 않은 API를 통해이를 어떻게 달성 할 수 있는지 제안하십시오. PHP/JavaScript에 익숙하지만 C/C++에서는 그다지 익숙하지 않습니다. – user2417713

+0

해당 정보는 [Tesseract site] (https://code.google.com/p/tesseract-ocr/) 및 포럼을 방문해야합니다. 'ResultIterator' 클래스의 사용법은 [API examples] (https://code.google.com/p/tesseract-ocr/wiki/APIExample)을 읽고 hocr과 관련된 문제는 Issues 페이지에서 해당 클래스/파일을 찾으십시오 hocr 출력. – nguyenq