저는 tesseract를 사용하여 자동화 된 OCR을 많이 수행 할 서버를 설정하고 있으며 결과의 일부 후 처리를 수행하려고합니다.기본 OCR 후 처리 (맞춤법 교정기)
이론적 인 측면에서이 문제에 대한 많은 자료가 있지만 실용적인 측면에서 많은 것을 찾지 못했습니다.
- 는
- 은 모음의 모두와 함께 '단어를'제거 연속 3 개 개의 동일한 문자를 제거
- 것은 제거 '단어'이상 : 내가 좋아하는 당신이 할 수있는 몇 가지 기본적인 것들, 거기에 상상
특정 길이보다
- 등
나는이 생각의 톤 부여하지 않은,하지만 OCR'ed의 텍스트로 공급됩니다 검색 시스템이므로 워드 맵을 작게 유지하는 것은 좋은 일이며 분명히 잘못된 단어를 삭제하거나 수정하는 것과 같습니다.
중요한 내용은 내용 자체가 영어로 작성된 법원 문서입니다. 따라서 때때로 적절한 이름이 있습니다. 그러나 다양한 단어는 아마도 크지 않으며 글꼴은 아마도 꽤 안정적 일 것입니다.
내가 알아야 할 유용한 정보 나 유용한 자료가 있습니까?
정부 웹 사이트에서 문서를 가져 오는 동안 검색 프로세스를 제어 할 권한이 없습니다. 성능이 문제가되기 때문에 제 2의 OCR 엔진을 사용하는 것은 좋지 않습니다. – mlissner