0
일부 뉴스 웹 사이트를 크롤링해야합니다. 내가 Hadoop 2.7.4와 Hbase 클러스터와 함께 설치 아파치 Nutch 2.3.1 있습니다. solr 6.6.1을 통해 검색을 제공해야합니다. 일부 웹 사이트를 크롤링 한 후 Nutch가 페이지의 모든 것을 크롤링하는 것을 관찰했습니다. 뉴스 웹 사이트에는 최신 뉴스 나 톱 뉴스 등이 포함 된 사이드 바가 있습니다. 이러한 사이드 바 콘텐츠는 시간이지나면서 바뀌 었습니다. Nutch에게 주요 스토리 내용을 크롤링하고 사이드 바를 피하도록 요청할 수있는 방법이 있습니까?Apache Nutch 2.3.1이 사이드 바가 아닌 스토리 내용을 크롤링하는 것을 제한하는 방법