2013-11-14 3 views
0

안녕하세요. 가능하면 xml을 통해 경로를 전달하여 pdf 및 word 파일을 검색 할 수 있습니까? 문서는 ... xml 파일은 다음과 같이 될 수 있도록 ..문서의 다른 값을 사용하여 SOLR xml 문서에 경로를 전달하여 pdf 및 .doc 파일을 검색 할 수 있습니까?

<doc> 
    <field name="id">1</field> 
    <field name="name">A</field> 
    <field name="sk">Acce</field> 
    <field name="level">Beginner</field> 
    <field name="do">Tuto</field> 
    <field name="open">1</field> 
    <field name="type">Ct</field> 
    <field name="extensis">cl_ex</field> 
    <field name="features">Atos</field> 
    <field name="downl"></field> 
    <field name="source">Atoms</field> 
    <field name="description">Ths.</field> 
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field> 

    </doc> 

    <doc> 
    <field name="id">2</field> 
    <field name="name">Ar</field> 
    <field name="sk">Acrce</field> 
    <field name="level">Beginner</field> 
    <field name="do">Tuto1</field> 
    <field name="open">11</field> 
    <field name="type">C1t</field> 
    <field name="extensis">cl_exd</field> 
    <field name="features">Atos</field> 
    <field name="downl"></field> 
    <field name="source">ddddd</field> 
    <field name="description">Thsdd.</field> 
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field> 

    </doc> 

을 그래서 여기에 내가 단어 "SOLR 단어"오히려 그것은 또한 내부에 가야 문서 만 검색보다는 SOLR 쿼리를 uaing을 검색하는 경우 파일 (file_path)을 검색하고 단어를 검색하십시오. 이것에 대한 제안이나 도움이 도움이 될 것입니다 ..

+0

다음은 요청 처리기를 추출하는 용도입니다. http : // stackove rflow.com/questions/9558526/indexing-multiple-documents-and-mapping-to-unique-solr-id/9567536#9567536. ** 파일 ** 자체를 Solr에 업로드합니다. – aitchnyu

답변

0

나는 알고 있습니다.

그러나 다른 경로를 통해 가능합니다. Apache Tika를 사용하여 pdf/doc 파일을 텍스트로 추출한 다음 해당 텍스트를 색인화하여 문서 내에서 "검색"할 수 있습니다.

샘플 구현 :

PDF -> 티카

티카 -> PDF 파일에서 텍스트

PDF 파일에서 텍스트 & & 파일 경로 -> SOLR의 문서

검색 SOLR은 ->로 문서를 반환 검색이 파일의 내용과 일치하는 경우 파일 경로

+0

당신은 tika를 사용하여 문서 아이디로 각 파일을 색인해야한다고 말합니까? 그리고 검색 할 때 파일 일치와 해당 파일의 해당 경로 만 제공합니다. 그리고 xml 파일을 통해이 문제를 해결할 수 없습니다. 파일을 다운로드 할 파일 경로와 이름, 설명 및 기타 필드 세부 정보도 표시 될 것으로 예상 했었습니다 ....? –

+0

방금 ​​설명한 내용을 수행 할 수 있습니다. 내가 제공 한 것은 샘플 구현이었습니다. 원하는만큼 많은 필드를 반환 할 수 있습니다 (문서가 쿼리와 일치 할 경우). –