2016-09-07 4 views
0

저는 HDR 파일 (TXT, PDF, DOCX, 기타 풍부한 문서 포함)을 Solr에 색인화해야한다는 요구 사항이 있습니다.MapReduceIndexerTool - Solr에서 HDFS 파일을 색인하는 가장 좋은 방법은 무엇입니까?

현재 LucidWorks 커넥터의 DirectoryIngestMapper을 사용하고 있습니다.

그러나 특정 제한 사항 (주된 고려 사항은 파일 형식을 지정할 수 없음)이 있기 때문에이 작업을 수행 할 수 없습니다.

이제는 MapReduceIndexerTool을 사용할 가능성에 대해 살펴 보았습니다. 그러나 그것은 초보자가 많지 않습니다 (저는 절대적인 기본을 의미합니다!) 레벨 예제.

누군가가 MapReduceIndexerTool로 시작하는 예제 링크를 게시 할 수 있습니까? HDFS에서 파일을 색인화하는 다른 방법이 있습니까?

TIA!

답변

0

그러나 특정 제한 사항 (주된 고려 사항은 파일 형식을 지정할 수 없음)이 있기 때문에이 작업을 수행 할 수 없습니다.

https://github.com/lucidworks/hadoop-solr의 경우 입력은 경로입니다.

따라서 파일 이름을 지정할 수 있습니다.

-i /path/*.pdf

편집 :

당신은 add.subdirectories 인수를 추가 할 수 있습니다. 그러나 *.pdf 재귀 gitsource

-Dadd.subdirectories=true

+0

을 설정하지 않은하지만 당신이 제안 형식으로 입력을 줄 때, 하위 디렉토리는 크롤되지 않습니다. 이것은 매우 중요한 요구 사항입니다. –

+0

또한 하위 디렉터리 크롤링은 매우 문제가 있습니다. 때로는 하위 디렉토리에있는 파일을 고려하지 않습니다. 사실 개별적으로 색인을 생성 할 수 있기 때문에 파일의 문제가 아니라는 사실을 알고 있습니다. –

+0

이 문제에 대해 https://github.com/lucidworks/hadoop-solr/issues/17을 열었습니다. – acesar