2012-01-12 1 views
0

저는 초보자로서 Hadoop을 사용하려고합니다. 처음에는 무언가를 놓친 것 같은 일반지도 - 축소 항목을 이해하고 있지만 추측 할 수 있습니다.Hadoop은 입력으로 폴더 구조를 사용합니다.

기본적으로 hadoop을 사용하여 웹 사이트 (로컬)를 구문 분석하고 그 결과로 링크 구조가 있습니다 (나중에 일부 페이지 순위를 계산할 수 있도록).

따라서 입력 내용은 폴더 구조 (하위 폴더 및 파일 포함)이며 출력은 현재 각 파일에 연결된 파일 목록이어야합니다.

어떤 InputFormat을 사용해야합니까? FileInputFormat이 작동하지 않는 것 같습니다 (폴더를 발견하면 예외가 발생하여 디렉토리라고합니다). 실제로 그러한 폴더 구조를 입력 할 수있는 InputFormat이 있습니까?

입력하지 않으면 ... 입력 데이터를 사전 처리해야합니까? 의미는 모든 HTML 파일을 하나의 디렉토리로 가져 와서 거기에서 본 것입니까? 또는, 필요한 InputFormat을 작성하는 방법이 있습니까?

답변

2

실제로 이러한 폴더 구조를 입력 할 수있는 InputFormat이 있습니까?

모든 FileInputFormats는 경로를 입력으로 사용하며 디렉토리 또는 파일이 될 수 있습니다.

FileInputFormat이 작동하지 않는 것처럼 보입니다. 폴더와 마주 치면 예외가 발생하며 디렉토리라고합니다.

은 일부 릴리스 (0.21, 0.22, 0.23 및 트렁크)에서 수정되었습니다. o.a.h.mapred.FileInputFormat에는 addInputPathRecursively 메소드가 구현되어 있어야합니다. 또한 새로운 API (o.a.h.mapreduce.FileInputFormat)에 구현되지 않은 것으로 나타났습니다. 트렁크의 o.a.h.mapred.FileInputFormat 클래스에 대한 code입니다.

현재 사용중인 릴리스는 무엇입니까?

기본적으로 hadoop을 사용하여 웹 사이트 (로컬)를 구문 분석하고 그 결과 링크 구조가 있으므로 (나중에 일부 페이지 순위를 계산할 수 있음).

미디어 관심/과장 때문에 모든 일에 하둡이 사용되고 있습니다. Hadoop as-is는 일부 유형의 문제에 적합합니다. 그래프 처리에는 Apache HamaGiraph을 사용하는 것이 좋습니다. 두 가지 모두 창업 보육 센터에 있고 문서도 드물다는 점에 유의하십시오.

+0

답변 해 주셔서 감사합니다. 저는 Hadoop 버전 1을 사용하고 있습니다. 새 FileInputFormat에 어떻게 작동하는지 알려 드리겠습니다. –

+0

버전 1.0.x는 0.20. * 코드 기반의 재 브랜딩이며 필수 API를 가지고 있지 않습니다. 0.23은 아키텍처 변경이 많고 1.0.x와 많이 다르므로 0.22 릴리스로 이동하십시오. –