두 개의 mapreduce 작업이있는 시나리오입니다. 필자는 python을 사용하여 mapreduce 스크립트를 작성하고이를 사용하여 동일한 스트리밍을 사용하기를 더 편하게 생각합니다. 두꺼운 스트리밍을 사용할 때 양식을 따르는 두 작업을 연결하는 것이 편리합니까?Hadoop 스트리밍에서 다중 mapreduce 작업 체인화
MAP1 -> Reduce1 -> Map2에 -> Reduce2
나는 자바에서이 작업을 수행하는 방법을 많이 들었어요,하지만 난 하둡 스트리밍을위한 무언가가 필요합니다.
흠에서 https://github.com/Yelp/mrjob
및 문서의 소스, 나는 이것이 어떻게 작동하는지 모르겠습니다. 나는 질문을했다 : http://stackoverflow.com/questions/35249753/call-mapper-when-reducer-is-done – gsamaras