2011-07-30 2 views
3

2 또는 3 개의 글꼴 만 사용하는 문서의 흑백 이미지가 있다고 가정 해 보겠습니다. 3 중 하나는 제목에 사용되며 다른 글꼴은 작은 글꼴 (또는 적어도 매우 단순함)입니다. 예를 들어, 텍스트의 작은 비트 중 하나가 될 수 있습니다 나는 "최고의 수프"등 이탤릭체 /과 특정 멋진 글꼴을 사용 말해 줄 수 큰 공상 OCR 시스템이 필요하지 않습니다OCR 및 2 또는 3 개의 글꼴 구분

Fancy/Bolded/Italicized/Script font: The Best Soup In The World 
Plain/small: Made with tap water, salt, and sugar. 

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World 
Plain/small: Made with flour, tap water, salt, and sugar. 

. 나는 "Best Soup"이 "수돗물"과 다르게 서식하고, "Best Soup"과 "Sandwich"가 아마도 동일한 서식을 사용하고 있고 "Sandwich"가 "Tap"보다 더 크거나 더 멋지다 고 말할 수있는 시스템이 필요합니다. 물."

관련성이있는 경우 Tesseract를 사용하여 실제 OCR 및 경계 상자 감지 (http://www.mail-archive.com/[email protected]/msg02157.html)를 수행 할 것입니다.

이 간단한 서식 분류를 수행하는 데 사용할 수있는 것이 있습니까?

편집 :

나에게 팔과 다리를 비용없이이 작업을 수행 할 것입니다 거기 있나요?

답변

1

tesseract가 설명하는 작업을 해결할 수 있는지 확실하지 않지만, 좋은 ocr 엔진이 글꼴 스타일을 감지해야한다고 생각합니다. 예를 들어, ABBYY OCR SDK은 굵게/기울임 꼴 글꼴 스타일을 식별 할 수있을뿐만 아니라 출력에 사용할 적절한 글꼴을 정의 할 수도 있습니다.

당신이 묘사 한 바를 토대로 헤더 레벨 등과 같은 문서 스타일 계층 구조를 결정하려고합니다. ABBYY FineReader Engine은이 기능을 제공하며 글꼴 크기 & 스타일 기반 텍스트 용도 루틴에 관여하지 않습니다. 게다가, 그것은 최고의 ocr 품질을 제공하고 그것을 시도 무료입니다. 상용 소프트웨어를 계획하는 경우 사용해보십시오. @ ABBYY를 작업하고 필요할 경우 OCR SDK에 대한 자세한 정보를 제공 할 수 있습니다.

감사합니다.

+0

조용히 회사를 밀고있는 동안 도움이되는 응답을 제공해 주셔서 감사합니다. :) 현재로서는 내가 요금을 부과할지 여부를 결정하지 않았으므로 다른 가능성을 계속 고려할 것입니다. –