2017-05-01 2 views
0

기본 요구 사항은 OCR 도구에서 생성 된 텍스트 문서가 있으며 이제는 어떤 유형의 문서인지 식별하고자합니다. 여권, 운전 면허증, 은행 잔고 증명서, S.S.N./Aadhar, 프로그래밍 방식으로 Java를 통해. 모든 포인터/시동기가 도움이됩니다. 감사합니다유형/종류 문서 식별

+0

권장 사항에 대한 요청은 SO에서 주제와 관련이 없습니다. 그러나 https://stats.stackexchange.com/에서 확인할 수 있습니다. – Sentry

답변

0

OCR의 가능한 오류를 수용하기 위해 "퍼지 검색"또는 "와일드 문자"가있는 키워드에 대한 콘텐츠 파싱이 필요합니다. 이 문서는 힘들며 배경 등으로 인해 OCR 실수를 포함해야합니다. 이중화 및보다 관대 한 분류를 위해 둘 이상의 키워드를 검색하십시오.

방법 : 많은 온라인 출처. "텍스트 파싱"에 대한 일반적인 연구부터 시작하는 것이 좋습니다.