2016-11-16 5 views
0

Solr 및 Tika를 사용하여 텍스트 문서를 검색하려고합니다. .docx, .pptx, .csv, .xlsx, .. 모두 잘 작동하지만 .pdf 파일의 경우 빈 내용을 반환합니다. 나는 문제가 어디에 있는지 알 수 없다!Solr을 사용하여 아랍어 PDF 파일 인덱싱

+1

어떻게 색인을 생성합니까? – vinod

+0

나는 solrconfig 파일에서 ExtractRequestHandler를 사용한 다음 curl 명령을 사용하여 pdf 파일을 색인화했습니다. 모든 올바른 메타 데이터를 가져 오지만 내용은 다음과 같습니다. attr_filecontent ": ["\ n \ n \ n \ n \ n \ n \ n \ n \ n \ n "] – LHAD

답변

0

는 인덱스 파일을 사용 -Dauto

예에 post.jar를 사용하는 경우 : 우리가 인덱스 티카가 지원하는 모든 문서 포맷을 할 수 -Dauto를 사용

java -Dauto -Dc=collection_name -jar post.jar pdf_file.pdf 

. PDF는 텍스트 나 이미지 내부에 포함 할 수있는, HTML 등

즉 TXT, 문서, DOCX, PDF, XML은, 필드 정의에

<fieldType name="text_general_arabic" class="solr.TextField" positionIncrementGap="100"> 
    <analyzer type="index"> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" /> 
    <filter class="solr.ArabicNormalizationFilterFactory"/> 
    <filter class="solr.ArabicStemFilterFactory"/>  
    </analyzer> 
    <analyzer type="query"> 
    <tokenizer class="solr.StandardTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="arabic_stopwords.txt" enablePositionIncrements="true" /> 
    <filter class="solr.ArabicNormalizationFilterFactory"/> 
    <filter class="solr.ArabicStemFilterFactory"/>  
    </analyzer> 
</fieldType> 
+0

시도했지만 동일한 결과가 나타납니다. – LHAD

+0

알기를 잊어 버렸습니다. 필드 정의에 스키마 파일에 아랍어 필터를 포함해야합니다. – vinod

+0

아랍어 필터를 스키마 파일에 포함 시켰습니다. 영어 pdf 파일에서도 동일한 문제가 발생합니다! – LHAD

0

올바르게 PDF 파일의 구문을 분석하기가 어렵습니다 이러한 아랍어 필터 클래스를 추가합니다. 우리는 모든 파일의 내용을 쉽게 검색 할 수있는 도구를 만들었습니다. 우리의 경험을 바탕으로 :

  1. 구문 분석 PDF PDFbox와 첫
  2. 하면 1 단계 반환 제로 ->은 OCR을

당신이 우리의 블로그 https://blog.ambar.cloud/ingest-attachment-plugin-for-elasticsearch-should-you-use-it/

을 찾을 수있는 프로세스의 자세한 설명

희망이 있습니다.

p.s. 우리의 통합 솔루션 https://github.com/RD17/ambar