2013-11-22 2 views
0

하둡의 구현에 대해 혼란 스럽습니다.하둡의 매퍼 및 감속기

여러 맵퍼 및 리듀서가있는 Hadoop MapReduce 작업을 실행할 때 많은 part-xxxxx 파일을 얻을 수 있습니다. 그 사이에, 열쇠는 그 중 하나에서만 나타난다 진실하다.

따라서 MapReduce가 어떻게 작동하여 키가 하나의 출력 파일에만 연결되는지 궁금합니다.

미리 감사드립니다.

답변

3

MapReduce 프로세스의 셔플 단계는 같은 키를 가진 레코드가 모두 동일한 줄이기 작업에 포함되도록합니다. MapReduce 데이터 흐름에 대한 설명은 this Yahoo tutorial을 참조하십시오. 파티션 & 셔플은 다음과 같이 나타냅니다.

각 맵 작업은 모든 파티션에 (키, 값) 쌍을 방출 할 수 있습니다. 동일한 키에 대한 모든 값은 어떤 매퍼가 원점에 관계없이 항상 함께 감소됩니다. 감속기에

2

셔플

입력 매퍼의 정렬 된 출력된다. 이 단계에서 프레임 워크는 HTTP를 통해 모든 맵퍼 출력의 관련 파티션을 가져옵니다.

이 단계에서 (다른 맵퍼 출력 동일한 키를 가질 수 있기 때문에) 분류

키에 의한 워크 그룹 감속기 입력이.

셔플 및 정렬 단계가 동시에 발생합니다. 맵 출력은 페치되고 병합됩니다.

여기에서이있어

https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

내가

도움이 의지에게 희망 그것에 보라