2017-11-11 7 views
1

큰 데이터 세트를 작업하고 Mapreduce 프로그램을 실행합니다. Mapreduce를 3GB 정도의 단일 파일로 쉽게 실행할 수 있습니다. 모든 파일에 대해 mapreduce를 실행하고 싶습니다. 모든 파일에 대해 mapreduce를 직접 실행하는 데 필요한 바로 가기 나 기술이 있습니까? OS-Ubuntu 사용 Hadoop-2.7.1많은 수의 파일에 동시에 mapreduce 프로그램을 실행하는 방법은 무엇입니까?

답변

1

모든 파일을 사용할 수 있으면 파일 이름 대신 map-reduce 입력 매개 변수에서 디렉토리/정규 표현식을 지정하십시오.

예 :

당신이 지속적으로 파일을 받고 처리를하려는 경우/사용자/조/단어 수/출력 /user/joe/wordcount/*.txt 을 단어 수 wc.jar 빈/하둡 항아리 그들이 도착할 때. map-reduce 작업을 반복해서 실행해야합니다. 배치 작업이기 때문에.