Solf (1.4 이후 버전)에서 PDF 구문 분석을위한 Tika/PDFBox의 대체

Solr이 내 PDF 파일을 올바르게 구문 분석하지 않는 것 같습니다. 아파치 티카 (PDF 파일을 내부적으로 사용한다고 생각하는)를 사용하는 대신 PDF 파일을 구문 분석하기위한 다른 대안이 있는지 궁금합니다. 나는 이것을 사용할 때 내 콘텐츠 사이에 임의의 공간을 얻는 것처럼 보입니다. 나는 같은 문제가있는 PDFBox (최신 버전)를 통해 PDF를 실행하여 문제를 격리했습니다.Solf (1.4 이후 버전)에서 PDF 구문 분석을위한 Tika/PDFBox의 대체

Omnifind와 같은 OCR 상용 소프트웨어는 PDF로 잘 작동하지만 Solr과 같은 방법으로 통합 할 수 없으며 구매도 옵션이 아닙니다.

출처

2011-11-16 Ravish Bhagdev

어떤 Tika 버전을 사용하고 있습니까? – Gagravarr

나는 0.10으로 시도했다. 1.0이 나왔다. 아직 시도하지 않았다. 내일 사격을 할거야! 감사. –

PDFBox 팀이 적극적으로 프로젝트를 진행하고 있으며, 새로운 각 릴리스는 상황을 개선하는 경향이 있으므로 새로운 Tika + PDFBox를 사용해 볼 가치가 있습니다. – Gagravarr