2 또는 3 개의 글꼴 만 사용하는 문서의 흑백 이미지가 있다고 가정 해 보겠습니다. 3 중 하나는 제목에 사용되며 다른 글꼴은 작은 글꼴 (또는 적어도 매우 단순함)입니다. 예를 들어, 텍스트의 작은 비트 중 하나가 될 수 있습니다 나는 "최고의 수프"등 이탤릭체 /과 특정 멋진 글꼴을 사용 말해 줄 수 큰 공상 OCR 시스템이 필요하지 않습니다OCR 및 2 또는 3 개의 글꼴 구분
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
. 나는 "Best Soup"이 "수돗물"과 다르게 서식하고, "Best Soup"과 "Sandwich"가 아마도 동일한 서식을 사용하고 있고 "Sandwich"가 "Tap"보다 더 크거나 더 멋지다 고 말할 수있는 시스템이 필요합니다. 물."
관련성이있는 경우 Tesseract를 사용하여 실제 OCR 및 경계 상자 감지 (http://www.mail-archive.com/[email protected]/msg02157.html)를 수행 할 것입니다.
이 간단한 서식 분류를 수행하는 데 사용할 수있는 것이 있습니까?
편집 :
나에게 팔과 다리를 비용없이이 작업을 수행 할 것입니다 거기 있나요?
조용히 회사를 밀고있는 동안 도움이되는 응답을 제공해 주셔서 감사합니다. :) 현재로서는 내가 요금을 부과할지 여부를 결정하지 않았으므로 다른 가능성을 계속 고려할 것입니다. –