2014-09-20 8 views
0

감속기 만 [프로그램에 맵핑 기능이 정의되어 있어도] 맵퍼에서 실행되지 않도록 맵 감속 프로그램을 구성 할 수 있습니까? 작업 구성을 변경하여이 작업을 수행 할 수 있습니까?기존 프로그램에서 감속기 만 실행하도록 MapReduce 프로그램 구성

mapreduce에서 증분 계산을 추가하려는 경우 (추가 전용 파일로 입력). 예 단어 수 이미 약간 더 많은 데이터가 입력 된 파일에 부가 된 후 파일에 실행되는 경우를 들어 단어 수

,

들어.

다시 wordcount가 업데이트 된 입력 파일에서 실행되면 새 데이터에만 wordcount를 실행하고 이전 결과를이 파일과 결합하려고합니다. 출력의 결합을 위해 나는 감속기를 단독으로 실행하고 싶습니다..

+0

이것은 전적으로 귀하가하는 일에 달려 있습니다. 데이터를 합치고 계시거나 이미 정렬 된 데이터를 줄이려고하십니까? –

+0

내가 뭘 원하는지에 대한 질문을 업데이트했습니다. –

답변

1

아니요, 불가능합니다. Hadoop은 map을 수행해야하며 reduce은 선택 사항입니다.

그룹화를 수행하려는 경우 Apache Tez을 사용하고 달성하려는 항목과 동일한 DAG를 구성 할 수 있습니다 (내부 데이터 형식을 사용해야하기 때문에 해킹 될 수 있음) .

0

예 당신은! 매퍼해야 하나이기 때문에 이것은, 트릭을 할 것입니다

import sys for i in sys.stdin: print i

매퍼 (python_version)로이 코드를 사용할 수 있습니다. 그냥 더미 매퍼 (dummy mapper)로 입력 내용을 출력하십시오.

도움이 될 것 같네요!