이것은 많은 PDF 파일이있는 클라이언트의 추측입니다.Algolia로 PDF 파일 검색 (
Algolia는 FAQ에서 PDF 파일을 검색하려면 먼저 파일에서 텍스트를 추출해야한다고 말합니다. 어떻게 이것에 대해 가겠습니까?
나는 시스템 작업이 될 것 직시 방법 : CMS를 통해
- 클라이언트 업로드 PDF는
- CMS는 일부 서비스/프로그램
- Algolia 인덱스 추출 된 텍스트를 추출 호출하고 어떻게 든입니다 원래의 PDF 파일에 링크
클라이언트가 자동으로 시스템에 있어야만합니다. 색인. 우분투에서 실행되는 아마 Laravel은 PHP로 작성 될 것입니다.
PDF에서 텍스트 추출을 할 수있는 소프트웨어/서비스는 무엇이며 PDF 파일과 '링크'하기 위해 필요한 마술은 무엇입니까?
이 문제를 처리 할 수있는 다른 검색 서비스에 대한 제안도 있습니다.
좋은 소리입니다. 사용자가 파일 첨부를 변경할 때 권장되는 접근 방법은 무엇입니까? 즉, 텍스트 묶음이 포함 된 각 문서를 업데이트해야합니다. 새 파일의 청크가 적다면 어떻게 될까요? 그런 다음 삭제할 청크를 어떻게 알 수 있습니까? –
문서를 업데이트하는 대신 단순히'create','delete'라고 생각할 것입니다. 당신이 distinct를 사용하고 있기 때문에 이미 파일 당 하나의 레코드만을 되돌려 보내고 있기 때문에, * v1 *에서'create'를하기 전에, * v1 + v2 *에서'create' 후에,'delete'에서 * v2 *. – Jerska