2010-05-26 4 views

답변

2

Solr에 텍스트를 가져 오려면 추출 할 수 있어야합니다. Lucene 커넥터 프레임 워크는 바로 그렇게하기위한 것입니다. 어떻게 든 원시 텍스트를 다른 방법으로 얻는다면 DataImportHandler을 사용하여 정보를 가져올 수 있습니다. 텍스트를 올바르게 색인화하고 스키마를 잘 구성하면 성공적인 검색 결과를 얻을 수 있어야합니다.

+0

Apache Tika 필터는 어디에 적합합니까? –

+0

나는 그것이 확실하지 않습니다. Tika의 지원되는 문서 형식 (http://tika.apache.org/formats.html)을 보면 여러 가지 Microsoft 문서 형식을 지원합니다. 나는 이들 중 어떤 것이 셰어 포인트와 관련이 있는지 알지 못한다. Tika는 지원되는 형식의 파일에서 텍스트 및 메타 데이터를 추출 할 수 있으므로 리포지토리 처리 (파일 시스템, 디렉토리, 크롤링)를 직접 조정할 수 있습니다. 그러나 LCF를 사용하는 이유는 무엇입니까? –

+0

예 LCF 사용에 앞서 LCF가 전체 텍스트 검색을 처리합니까? –