2014-12-19 7 views
1

nutch가 크롤링하는 페이지를 공유하는 수천 개의 solr 인덱스/컬렉션이 있습니다.여러 solr 인덱스 사이에서 크롤링 된 Nutch 데이터 공유

현재 이러한 페이지는 여러 페이지가 포함되어있는 각 solr 색인에 대해 한 번 크롤링 중입니다.

이러한 사이트를 한 번 크롤링하고 인덱스 간 크롤링 데이터를 공유 할 수 있습니까?

아마도 사이트가 크롤링 된 경우 기존 크롤을 확인하고 거기에서 파싱 및 색인을 위해 데이터를 가져옵니다.

또는 모든 사이트를 한 번에 크롤링 한 다음 각 인덱스에 크롤링 데이터를 선택적으로 제출하십시오.

어떤 아이디어 나 : (예를 들어, 하나 개의 세그먼트 당 사이트 만있는 세그먼트를 식별하는 방법을 잘 인해 세그먼트 이름을에 어떤 사이트에 속하는 숫자입니다) 도움 감사합니다 :)

답변

1

당신은 새로운 인덱서를 작성해야합니다 그 일을하는 플러그인; Nutch의 SolrIndexer를보고 새로운 인덱서를 작성하는 방법을 이해하십시오. 그 인덱서에서 다음을 수행해야합니다

  1. 가 서너 SOLR 서버 인스턴스, 각각의 코어 하나를 정의합니다.
  2. 인덱서 작성 메서드에서 문서의 유형을 검사하고 올바른 Solr 코어를 사용하여 문서를 추가합니다. 오른쪽으로 Nutch에 문서를 보낼 위치를 결정할 수있는 필드가 있어야합니다.