2011-11-07 1 views
0

Solr의 pdf 텍스트 추출에 문제가 있습니다. Solr은 Apache Tika를 사용하여 PDF 파일의 텍스트를 추출하고 tika는 PDFBox를 사용합니다. PDF 파일을 Solr에게 보내면 텍스트가 성공적으로 추출되지만 텍스트가 완전히 엉망입니다. 그Solr ExtractingRequestHandler pdf 텍스트 추출

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht 같은 뭔가

하지만 명령을 다음과 같이 명령 줄에서 PDFBox 직접 같은 PDF 파일을 추출 할 때 좋은 결과를 얻을 수 있습니다 .

자바 -jar pdfbox-앱 1.6.0.jar ExtractText -console있는 test.pdf

나는 SOLR에 의해 사용되는 PDFBox 버전있는 티카 버전 이상을 모른다. 난 ...에있는 lib 디렉토리의 모든 libs와 다음은 SOLR 전쟁 파일에서 해당에 대한 라이브러리를 찾을 수 없습니다 : 누군가가 그에 대한 해결책을 알고 있다면

09.09.2011 09:06 <DIR>   . 
09.09.2011 09:06 <DIR>   .. 
09.09.2011 09:06   1.421.869 apache-solr-core-3.4.0.jar 
07.09.2011 13:12   22.478 apache-solr-noggit-r1099557.jar 
09.09.2011 09:06   281.626 apache-solr-solrj-3.4.0.jar 
07.09.2011 13:12   188.671 commons-beanutils-1.7.0.jar 
07.09.2011 13:12   58.160 commons-codec-1.4.jar 
07.09.2011 13:12   575.389 commons-collections-3.2.1.jar 
07.09.2011 13:12   27.361 commons-csv-1.0-SNAPSHOT-r966014.jar 
07.09.2011 13:12   57.779 commons-fileupload-1.2.1.jar 
07.09.2011 13:12   305.001 commons-httpclient-3.1.jar 
07.09.2011 13:12   109.043 commons-io-1.4.jar 
07.09.2011 13:12   257.923 commons-lang-2.4.jar 
07.09.2011 13:12   28.804 geronimo-stax-api_1.0_spec-1.0.1.jar 
07.09.2011 13:12   932.554 guava-r05.jar 
07.09.2011 13:12   17.308 jcl-over-slf4j-1.6.1.jar 
07.09.2011 13:12   12.359 log4j-over-slf4j-1.6.1.jar 
09.09.2011 09:04   850.852 lucene-analyzers-3.4.0.jar 
09.09.2011 09:02   1.398.580 lucene-core-3.4.0.jar 
09.09.2011 09:04   61.997 lucene-grouping-3.4.0.jar 
09.09.2011 09:04   83.615 lucene-highlighter-3.4.0.jar 
09.09.2011 09:04   30.214 lucene-memory-3.4.0.jar 
09.09.2011 09:04   69.797 lucene-misc-3.4.0.jar 
09.09.2011 09:04   45.979 lucene-queries-3.4.0.jar 
09.09.2011 09:04   57.912 lucene-spatial-3.4.0.jar 
09.09.2011 09:04   62.164 lucene-spellchecker-3.4.0.jar 
07.09.2011 13:12   25.496 slf4j-api-1.6.1.jar 
07.09.2011 13:12    8.890 slf4j-jdk14-1.6.1.jar 
07.09.2011 13:12   419.521 velocity-1.6.1.jar 
07.09.2011 13:12   309.896 velocity-tools-2.0-beta3.jar 
07.09.2011 13:12   520.969 wstx-asl-3.2.7.jar 
       29 Datei(en)  8.242.207 Bytes 
       2 Verzeichnis(se), 21.805.932.544 Bytes frei 

정말 정말 행복 할 것입니다.

답변

2

Solr에는 Tika 및 그 종속성에 대한 추가 jar가 별도의 폴더에 있으며 Solr 배포 가능 패키지의 일부로 패키지되지 않습니다. SOLR 3.4

- 당신이 SOLR 트렁크가있는 경우, 항아리 인 path @solr/contrib/extraction/lib 폴더는 항아리를 찾을 수있는 전복에

에서 볼 수 있습니다

pdfbox-1.3.1.jar

trunk for Solr에는 최신 pdfbox-1.6.0.jar가 있습니다.

+0

나는 PDF 파일, fontbox 및 jempbox lib를 최신 1.6.0 jar 파일로 대체했으며 여전히 동일한 결과를 얻었습니다. – itsme

+0

좋아, 야간에 사용할 때 아카이브 압축 텍스트 추출 작업이 꽤 잘됩니다. 하지만 안정적인 빌드를 선호합니다. – itsme

+0

나는 dist 및 contrib 디렉토리를 야간 빌드의 내용으로 대체했습니다. 이제 PDF 추출이 효과적입니다. 나는 그 밖의 모든 것들이 여전히 안정되기를 바랍니다. =) – itsme