OCR 된 스캔 된 PDF가 있으며 이제 스캔 한 이미지와 텍스트의 이중 레이어가 있습니다.OCR에서 Tesseract와 함께 사용하면 Tika에서 텍스트가 중복됩니다. PDF
Tessika와 통합 된 Tesseract를 사용하여 해당 PDF에서 텍스트를 추출하면 중복 텍스트가 표시됩니다. 하나는 OCR 텍스트이고 다른 하나는 Tesseract가 OCRing 이미지입니다.
이 경우 OCRed 텍스트 만 필요합니다.
텍스트 나 이미지가 포함 된 이미지 나 PDF 만 포함 된 PDF가있을 수 있기 때문에 Tesseract를 비활성화 할 수 없습니다.
정팔 포체는 Apache Tika extract scanned PDF files
는 티카는 그들에 OCR 텍스트가 PDF 내부 이미지 정팔 포체를 사용하지 말할 수있는 방법이 있는가에 같은 티카에 통합되어?
죄송합니다. 광고처럼 보이지만 Ambar를 사용하여 Tika의 OCR 문제를 피할 수 있습니다. 우리는 그것이 원활하게 작동하도록 상당한 노력을 기울였습니다. – SochiX