nutch가 크롤링하는 페이지를 공유하는 수천 개의 solr 인덱스/컬렉션이 있습니다.여러 solr 인덱스 사이에서 크롤링 된 Nutch 데이터 공유
현재 이러한 페이지는 여러 페이지가 포함되어있는 각 solr 색인에 대해 한 번 크롤링 중입니다.
이러한 사이트를 한 번 크롤링하고 인덱스 간 크롤링 데이터를 공유 할 수 있습니까?
아마도 사이트가 크롤링 된 경우 기존 크롤을 확인하고 거기에서 파싱 및 색인을 위해 데이터를 가져옵니다.
또는 모든 사이트를 한 번에 크롤링 한 다음 각 인덱스에 크롤링 데이터를 선택적으로 제출하십시오.
어떤 아이디어 나 : (예를 들어, 하나 개의 세그먼트 당 사이트 만있는 세그먼트를 식별하는 방법을 잘 인해 세그먼트 이름을에 어떤 사이트에 속하는 숫자입니다) 도움 감사합니다 :)