pdf 파일에서 텍스트를 추출하려고합니다. 그러나 일부 경우 pdf 파일은 하드 문서의 사본을 스캔합니다.Tika 파서/Java를 사용하여 pdf가 스캔 된 문서인지 확인하는 방법
주어진 PDF가 논문 또는 일반 pdf 파일을 스캔했는지 확인할 수있는 방법이 있습니까?
pdf 파일에서 텍스트를 추출하려고합니다. 그러나 일부 경우 pdf 파일은 하드 문서의 사본을 스캔합니다.Tika 파서/Java를 사용하여 pdf가 스캔 된 문서인지 확인하는 방법
주어진 PDF가 논문 또는 일반 pdf 파일을 스캔했는지 확인할 수있는 방법이 있습니까?
가능한 복제본 Check if a PDF file is a scanned one?
에 관계없이 - 선택적 내용 추출을 시도하기 전에 Tesseract to OCR 이미지를 사용할 수 있습니다 티카의 최신 버전 - 당신이 사용하는 경우 및 문서 메타 데이터를 검사 할 수 있습니다 티카에 의해 구문 분석 방법을 알고 싶어요은 다음 PDFParser는 X-Parsed-By
에 org.apache.tika.parser.ocr.TesseractOCRParser
추가 메타 데이터 키는 보통 org.apache.tika.parser.pdf.PDFParser
에 추가됩니다.
Tika를 실행하기 전에 OCR 처리를 실행할지 여부를 결정하려는 경우 PDF (예 : pdfimages/다른 명령 줄 도구 또는 PDFBox 기반 솔루션)를 사전 처리해야 할 가능성이 높습니다 텍스트 조작자가없는 전체 페이지 이미지 (또는 페이지를 커버하는 더 작은 이미지) 만 포함하고 OCRing이 필요한지 여부를보기 위해 텍스트를 분류하여 분류 할 수 있습니다.