하나의 감속기의 여러 인스턴스에 의해 나중에 축소 될 수있는 균질 맵을 생성하기 위해 여러 맵퍼로 태클해야하는 여러 개의 이기종 입력이 있습니다. 모든 맵퍼의 출력을 연결하여 ID 매퍼에게 보내서받은 것과 동일한 결과를내는 것보다 더 우아한 방법으로 수행 할 수 있습니까? Python Hadoop Streaming API를 사용하고 있으므로 MultipleInputs Java 인터페이스를 사용하는 것보다 좀 더 복잡합니다.여러 맵 전용 태스크에서 단일 분산 메모리 맵을 작성하려면 어떻게합니까?
4
A
답변
0
당신이 찾고있는 것은 MultipleInputs입니다. 다른 이종 입력에 대해 다른 매퍼를 작성해야합니다.
드라이버에서 다른 경로를 해당 매퍼에 매핑해야합니다.
이러한 모든 매퍼는 각각의 맵 출력을 감속기가 소비하는 표준 출력으로 변환해야합니다.
http://bytepadding.com/big-data/map-reduce/multipleinputs-in-map-reduce