2017-02-20 5 views
0

OCR 된 스캔 된 PDF가 있으며 이제 스캔 한 이미지와 텍스트의 이중 레이어가 있습니다.OCR에서 Tesseract와 함께 사용하면 Tika에서 텍스트가 중복됩니다. PDF

Tessika와 통합 된 Tesseract를 사용하여 해당 PDF에서 텍스트를 추출하면 중복 텍스트가 표시됩니다. 하나는 OCR 텍스트이고 다른 하나는 Tesseract가 OCRing 이미지입니다.

이 경우 OCRed 텍스트 만 필요합니다.

텍스트 나 이미지가 포함 된 이미지 나 PDF 만 포함 된 PDF가있을 수 있기 때문에 Tesseract를 비활성화 할 수 없습니다.

정팔 포체는 Apache Tika extract scanned PDF files

는 티카는 그들에 OCR 텍스트가 PDF 내부 이미지 정팔 포체를 사용하지 말할 수있는 방법이 있는가에 같은 티카에 통합되어?

+0

죄송합니다. 광고처럼 보이지만 Ambar를 사용하여 Tika의 OCR 문제를 피할 수 있습니다. 우리는 그것이 원활하게 작동하도록 상당한 노력을 기울였습니다. – SochiX

답변

0

우리는 비슷한 문제를 안고 있습니다. 우리는 다른 조건을 유지하려고했습니다. 여기서 기본 pdf 스캐너로 pdf를 전달하고 비어있는 경우 pdf의 tesseract 옵션을 사용하여 호출합니다.

+0

나는이 방법이 불행히도 나를 위해 작동하지 않도록 텍스트와 이미지를 모두 포함 할 수있는 PDF로 작업해야합니다. – Wizeek