저는 초보자로서 Hadoop을 사용하려고합니다. 처음에는 무언가를 놓친 것 같은 일반지도 - 축소 항목을 이해하고 있지만 추측 할 수 있습니다.Hadoop은 입력으로 폴더 구조를 사용합니다.
기본적으로 hadoop을 사용하여 웹 사이트 (로컬)를 구문 분석하고 그 결과로 링크 구조가 있습니다 (나중에 일부 페이지 순위를 계산할 수 있도록).
따라서 입력 내용은 폴더 구조 (하위 폴더 및 파일 포함)이며 출력은 현재 각 파일에 연결된 파일 목록이어야합니다.
어떤 InputFormat을 사용해야합니까? FileInputFormat이 작동하지 않는 것 같습니다 (폴더를 발견하면 예외가 발생하여 디렉토리라고합니다). 실제로 그러한 폴더 구조를 입력 할 수있는 InputFormat이 있습니까?
입력하지 않으면 ... 입력 데이터를 사전 처리해야합니까? 의미는 모든 HTML 파일을 하나의 디렉토리로 가져 와서 거기에서 본 것입니까? 또는, 필요한 InputFormat을 작성하는 방법이 있습니까?
답변 해 주셔서 감사합니다. 저는 Hadoop 버전 1을 사용하고 있습니다. 새 FileInputFormat에 어떻게 작동하는지 알려 드리겠습니다. –
버전 1.0.x는 0.20. * 코드 기반의 재 브랜딩이며 필수 API를 가지고 있지 않습니다. 0.23은 아키텍처 변경이 많고 1.0.x와 많이 다르므로 0.22 릴리스로 이동하십시오. –