2017-02-10 4 views

답변

0

가능한 복제본 Check if a PDF file is a scanned one?

에 관계없이 - 선택적 내용 추출을 시도하기 전에 Tesseract to OCR 이미지를 사용할 수 있습니다 티카의 최신 버전 - 당신이 사용하는 경우 및 문서 메타 데이터를 검사 할 수 있습니다 티카에 의해 구문 분석 방법을 알고 싶어요은 다음 PDFParser는 X-Parsed-Byorg.apache.tika.parser.ocr.TesseractOCRParser 추가 메타 데이터 키는 보통 org.apache.tika.parser.pdf.PDFParser에 추가됩니다.

Tika를 실행하기 전에 OCR 처리를 실행할지 여부를 결정하려는 경우 PDF (예 : pdfimages/다른 명령 줄 도구 또는 PDFBox 기반 솔루션)를 사전 처리해야 할 가능성이 높습니다 텍스트 조작자가없는 전체 페이지 이미지 (또는 페이지를 커버하는 더 작은 이미지) 만 포함하고 OCRing이 필요한지 여부를보기 위해 텍스트를 분류하여 분류 할 수 있습니다.