2016-07-28 2 views
2
)

이것은 많은 PDF 파일이있는 클라이언트의 추측입니다.Algolia로 PDF 파일 검색 (

Algolia는 FAQ에서 PDF 파일을 검색하려면 먼저 파일에서 텍스트를 추출해야한다고 말합니다. 어떻게 이것에 대해 가겠습니까?

나는 시스템 작업이 될 것 직시 방법 : CMS를 통해

  • 클라이언트 업로드 PDF는
  • CMS는 일부 서비스/프로그램
  • Algolia 인덱스 추출 된 텍스트를 추출 호출하고 어떻게 든입니다 원래의 PDF 파일에 링크

클라이언트가 자동으로 시스템에 있어야만합니다. 색인. 우분투에서 실행되는 아마 Laravel은 PHP로 작성 될 것입니다.

PDF에서 텍스트 추출을 할 수있는 소프트웨어/서비스는 무엇이며 PDF 파일과 '링크'하기 위해 필요한 마술은 무엇입니까?

이 문제를 처리 할 수있는 다른 검색 서비스에 대한 제안도 있습니다.

답변

2

다행히도 pdf에서 텍스트 추출은 여러 번 적용되는 주제입니다. 명령 행에서 pdftotext (Linux 또는 Mac에서 사용 가능) 또는 라이브러리의 코드에서 Apache Tika (PHP wrapper을 찾을 수 있음)을 사용할 수 있습니다.

레코드에 노이즈가 너무 많이 발생하지 않도록하려면 텍스트를 분할하고 단락별로 레코드 하나를 만드는 것이 좋습니다. 그런 다음 Algolia의 distinct 기능을 사용하여 결과를 중복 제거 할 수 있습니다.

이미 파일 링크를 기록에 저장 한 다음 프런트 엔드에서 autocomplete.js 또는 instantsearch.js과 같은 링크를 쉽게 만들 수 있습니다.

+0

좋은 소리입니다. 사용자가 파일 첨부를 변경할 때 권장되는 접근 방법은 무엇입니까? 즉, 텍스트 묶음이 포함 된 각 문서를 업데이트해야합니다. 새 파일의 청크가 적다면 어떻게 될까요? 그런 다음 삭제할 청크를 어떻게 알 수 있습니까? –

+0

문서를 업데이트하는 대신 단순히'create','delete'라고 생각할 것입니다. 당신이 distinct를 사용하고 있기 때문에 이미 파일 당 하나의 레코드만을 되돌려 보내고 있기 때문에, * v1 *에서'create'를하기 전에, * v1 + v2 *에서'create' 후에,'delete'에서 * v2 *. – Jerska