4

Solr이 내 PDF 파일을 올바르게 구문 분석하지 않는 것 같습니다. 아파치 티카 (PDF 파일을 내부적으로 사용한다고 생각하는)를 사용하는 대신 PDF 파일을 구문 분석하기위한 다른 대안이 있는지 궁금합니다. 나는 이것을 사용할 때 내 콘텐츠 사이에 임의의 공간을 얻는 것처럼 보입니다. 나는 같은 문제가있는 PDFBox (최신 버전)를 통해 PDF를 실행하여 문제를 격리했습니다.Solf (1.4 이후 버전)에서 PDF 구문 분석을위한 Tika/PDFBox의 대체

Omnifind와 같은 OCR 상용 소프트웨어는 PDF로 잘 작동하지만 Solr과 같은 방법으로 통합 할 수 없으며 구매도 옵션이 아닙니다.

+0

어떤 Tika 버전을 사용하고 있습니까? – Gagravarr

+0

나는 0.10으로 시도했다. 1.0이 나왔다. 아직 시도하지 않았다. 내일 사격을 할거야! 감사. –

+0

PDFBox 팀이 적극적으로 프로젝트를 진행하고 있으며, 새로운 각 릴리스는 상황을 개선하는 경향이 있으므로 새로운 Tika + PDFBox를 사용해 볼 가치가 있습니다. – Gagravarr

답변

2

this SO question에 대한 대답은 PDF 형식 자체의 특성 때문입니다.

OCR 옵션이 PDFBox보다이 문제에 더 도움이 될 수 있습니다. TesseractOcropus과 같은 무료 OCR 옵션이 있지만 실제로 작동하는지 또는 Solr과 쉽게 통합 될 수 있는지 알 수 없습니다.

+0

고마워, 이해 하겠지만, 나는 단지 어떤 종류의 문서에서 가장 잘 작동 하는지를 열거 할 수 있도록 대안을 찾고있다. 나는 그 대답을 읽은 이후로 완벽한 해결책을 찾고 있지 않다. –

1

Xpdf에는 문서를 Tika로 변환하는 pdftotext가 포함되어 있습니다.

+4

"훨씬 더 나은"이 무엇을 의미하는지에 대한 자세한 내용으로 갈 수 있을까? – gondo

1

jpod을 PDF에서 추출하기위한 대체 라이브러리로 사용합니다. pdfbox가 완전히 실패 할 때 (중단, 중단 등), 적어도 일부 경우 pdbbox보다 나을 때 작동합니다.