2017-12-19 42 views
0

MapReduce 아키텍처를 사용하여 Hadoop Framework 기반의 Java 크롤러를 구현하고 HBase에 컨텐츠를 삽입하려고합니다. 나는이 2 자습서를 결합하려고 :Hadoop MapReduce 기반 웹 Java 크롤러

Basic web crawler example

MapReduce tutorial

그러나 내가 개념을 이해할 수 없습니다. 페이지에서 링크를 추출하는 논리는 어디에 두어야합니까? Mapper의 입력 데이터 유형은 무엇입니까? 미리 감사드립니다.

+1

기본 개념은 매퍼 클래스에 링크를 추출하는 논리를 넣는 것입니다. 매퍼에 대한 입력 데이터는 처리하려는 URL 목록입니다. – Luk

답변

1

그냥 Apache Nutch을 사용하십시오.이 제품은 Hadoop을 기반으로하며 필요한 것 이상을 갖추고 있습니다.

+1

고마워,하지만 내 숙제 때문에 내 자신의 버전을 개발해야 해. –