Solr의 pdf 텍스트 추출에 문제가 있습니다. Solr은 Apache Tika를 사용하여 PDF 파일의 텍스트를 추출하고 tika는 PDFBox를 사용합니다. PDF 파일을 Solr에게 보내면 텍스트가 성공적으로 추출되지만 텍스트가 완전히 엉망입니다. 그Solr ExtractingRequestHandler pdf 텍스트 추출
MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht 같은 뭔가
하지만 명령을 다음과 같이 명령 줄에서 PDFBox 직접 같은 PDF 파일을 추출 할 때 좋은 결과를 얻을 수 있습니다 .
자바 -jar pdfbox-앱 1.6.0.jar ExtractText -console있는 test.pdf
나는 SOLR에 의해 사용되는 PDFBox 버전있는 티카 버전 이상을 모른다. 난 ...에있는 lib 디렉토리의 모든 libs와 다음은 SOLR 전쟁 파일에서 해당에 대한 라이브러리를 찾을 수 없습니다 : 누군가가 그에 대한 해결책을 알고 있다면
는09.09.2011 09:06 <DIR> .
09.09.2011 09:06 <DIR> ..
09.09.2011 09:06 1.421.869 apache-solr-core-3.4.0.jar
07.09.2011 13:12 22.478 apache-solr-noggit-r1099557.jar
09.09.2011 09:06 281.626 apache-solr-solrj-3.4.0.jar
07.09.2011 13:12 188.671 commons-beanutils-1.7.0.jar
07.09.2011 13:12 58.160 commons-codec-1.4.jar
07.09.2011 13:12 575.389 commons-collections-3.2.1.jar
07.09.2011 13:12 27.361 commons-csv-1.0-SNAPSHOT-r966014.jar
07.09.2011 13:12 57.779 commons-fileupload-1.2.1.jar
07.09.2011 13:12 305.001 commons-httpclient-3.1.jar
07.09.2011 13:12 109.043 commons-io-1.4.jar
07.09.2011 13:12 257.923 commons-lang-2.4.jar
07.09.2011 13:12 28.804 geronimo-stax-api_1.0_spec-1.0.1.jar
07.09.2011 13:12 932.554 guava-r05.jar
07.09.2011 13:12 17.308 jcl-over-slf4j-1.6.1.jar
07.09.2011 13:12 12.359 log4j-over-slf4j-1.6.1.jar
09.09.2011 09:04 850.852 lucene-analyzers-3.4.0.jar
09.09.2011 09:02 1.398.580 lucene-core-3.4.0.jar
09.09.2011 09:04 61.997 lucene-grouping-3.4.0.jar
09.09.2011 09:04 83.615 lucene-highlighter-3.4.0.jar
09.09.2011 09:04 30.214 lucene-memory-3.4.0.jar
09.09.2011 09:04 69.797 lucene-misc-3.4.0.jar
09.09.2011 09:04 45.979 lucene-queries-3.4.0.jar
09.09.2011 09:04 57.912 lucene-spatial-3.4.0.jar
09.09.2011 09:04 62.164 lucene-spellchecker-3.4.0.jar
07.09.2011 13:12 25.496 slf4j-api-1.6.1.jar
07.09.2011 13:12 8.890 slf4j-jdk14-1.6.1.jar
07.09.2011 13:12 419.521 velocity-1.6.1.jar
07.09.2011 13:12 309.896 velocity-tools-2.0-beta3.jar
07.09.2011 13:12 520.969 wstx-asl-3.2.7.jar
29 Datei(en) 8.242.207 Bytes
2 Verzeichnis(se), 21.805.932.544 Bytes frei
정말 정말 행복 할 것입니다.
나는 PDF 파일, fontbox 및 jempbox lib를 최신 1.6.0 jar 파일로 대체했으며 여전히 동일한 결과를 얻었습니다. – itsme
좋아, 야간에 사용할 때 아카이브 압축 텍스트 추출 작업이 꽤 잘됩니다. 하지만 안정적인 빌드를 선호합니다. – itsme
나는 dist 및 contrib 디렉토리를 야간 빌드의 내용으로 대체했습니다. 이제 PDF 추출이 효과적입니다. 나는 그 밖의 모든 것들이 여전히 안정되기를 바랍니다. =) – itsme