Apache Nutch : 전체 웹 콘텐츠가 아닌 URL 목록을 얻으십시오.

나는 아파치 Nutch에 매우 익숙합니다. 내 목표는 시드 URL 목록에서 시작하여 Nutch를 사용하여 최대 크기 (최대 1 백만 개 또는 1TB 이하)로 URL (및 하위 URL)을 추출하는 것입니다. 나는 페이지의 내용을 필요로하지 않고 단지 URL을 저장할 필요가있다. 이 일을 할 수있는 방법이 있습니까? Nutch가 올바른 도구입니까?Apache Nutch : 전체 웹 콘텐츠가 아닌 URL 목록을 얻으십시오.

출처

2017-11-28 user1512681

네,이 목적으로 Nutch를 사용할 수 있습니다. 근본적으로 Nutch는 원하는 모든 것을 수행합니다.

어떤 방법 으로든 가져온 HTML을 구문 분석해야합니다 (새 링크를 발견하고 과정을 반복하기 위해). 한 가지 방법은 Nutch가 linkdb 명령을 사용하여 파일에 저장하는 LinkDB를 덤프하는 것입니다. Nutch 1.x에서 사용할 수있는 indexer-links 플러그인을 사용하여 Inlink/Outlinks를 Solr/ES에 색인화 할 수 있습니다.

Nutch에서는 라운드 당 처리하려는 URL 수를 제어하지만 가져온 데이터의 양과 거의 관련이 없습니다. 따라서 언제 중단해야할지 결정해야합니다.

출처

2017-11-29 11:25:29

제안 해 주셔서 감사합니다. http://rdf.dmoz.org/rdf/content.rdf.u8.gz 데이터를 어디에서 다운로드 할 수 있는지 알고 계십니까? Nutch 페이지는이 기능을 권장했지만 웹 사이트를 종료했습니다. 나는 씨앗 목록을 생성하기 위해 이것을 필요로한다. – user1512681

솔직히 나는 잘 모른다. 나는 이전의 코멘트가 다른 것에 관한 것이라고 생각했다. –

Apache Nutch : 전체 웹 콘텐츠가 아닌 URL 목록을 얻으십시오.

답변

관련 문제