2017-03-25 14 views
0

solf를 사용하여 Tika OCR을 구성하는 방법 6.4.1. PDF, 이미지 및 MS 오피스 문서를 포함한 문서를 색인화했지만 문제가 발생했습니다. Tika는 이미지에서 텍스트를 추출하지 않았으며 PDF 및 MS 오피스 문서 내에있는 이미지에서도 텍스트를 추출하지 않았습니다. 이것을 위해 나는 Tika OCR을 연구했습니다. 이 목적을 위해 tika-app-1.7.jar와 Tesseract를 설치하고 있지만 solr 코어로 구성하는 방법을 모르겠습니다.soler를 사용하여 Tesseract 구성 6.4.1

답변

1

특별한 조치를 취할 필요가 없습니다. 배포판의 Tesseract OCR 설정과 시스템의 install을 가져 오기 만하면됩니다. PATH 변수에 Tesseract 홈 디렉터리 항목이 있고 TESSDATA_PREFIX 변수가 설정되어 있고 Tesseract 홈 디렉터리를 가리키고 있는지 확인하십시오. Solr을 다시 시작하면 잘 할 수 있습니다. /update/extract 핸들러를 통해 문서를 인덱스로 보낼 때 OCR 구성 요소를 볼 수 있어야합니다.

기본적으로 Tesseract는 영어 모델과 함께 제공됩니다. here에서 다른 언어의 모델을 가져옵니다.

+0

예 작동합니다! –

+0

그러나 아랍어 텍스트를 가져 오지 않습니다. –

+0

어떻게 추출 할 수 있습니까? –