2017-11-08 11 views
0

일부 뉴스 웹 사이트를 크롤링해야합니다. 내가 Hadoop 2.7.4와 Hbase 클러스터와 함께 설치 아파치 Nutch 2.3.1 있습니다. solr 6.6.1을 통해 검색을 제공해야합니다. 일부 웹 사이트를 크롤링 한 후 Nutch가 페이지의 모든 것을 크롤링하는 것을 관찰했습니다. 뉴스 웹 사이트에는 최신 뉴스 나 톱 뉴스 등이 포함 된 사이드 바가 있습니다. 이러한 사이드 바 콘텐츠는 시간이지나면서 바뀌 었습니다. Nutch에게 주요 스토리 내용을 크롤링하고 사이드 바를 피하도록 요청할 수있는 방법이 있습니까?Apache Nutch 2.3.1이 사이드 바가 아닌 스토리 내용을 크롤링하는 것을 제한하는 방법

답변

1

Nutch 2.x를 사용하고 있기 때문에 Nutch 1.x에서는 Tika에서 사용할 수있는 보일러 파이프를 사용할 수 있습니다. 하지만 안타깝게도 아직 2.x 지점으로 포팅되지 않았습니다.