하둡의 구현에 대해 혼란 스럽습니다.하둡의 매퍼 및 감속기
여러 맵퍼 및 리듀서가있는 Hadoop MapReduce 작업을 실행할 때 많은 part-xxxxx 파일을 얻을 수 있습니다. 그 사이에, 열쇠는 그 중 하나에서만 나타난다 진실하다.
따라서 MapReduce가 어떻게 작동하여 키가 하나의 출력 파일에만 연결되는지 궁금합니다.
미리 감사드립니다.
하둡의 구현에 대해 혼란 스럽습니다.하둡의 매퍼 및 감속기
여러 맵퍼 및 리듀서가있는 Hadoop MapReduce 작업을 실행할 때 많은 part-xxxxx 파일을 얻을 수 있습니다. 그 사이에, 열쇠는 그 중 하나에서만 나타난다 진실하다.
따라서 MapReduce가 어떻게 작동하여 키가 하나의 출력 파일에만 연결되는지 궁금합니다.
미리 감사드립니다.
MapReduce 프로세스의 셔플 단계는 같은 키를 가진 레코드가 모두 동일한 줄이기 작업에 포함되도록합니다. MapReduce 데이터 흐름에 대한 설명은 this Yahoo tutorial을 참조하십시오. 파티션 & 셔플은 다음과 같이 나타냅니다.
각 맵 작업은 모든 파티션에 (키, 값) 쌍을 방출 할 수 있습니다. 동일한 키에 대한 모든 값은 어떤 매퍼가 원점에 관계없이 항상 함께 감소됩니다. 감속기에
셔플
입력 매퍼의 정렬 된 출력된다. 이 단계에서 프레임 워크는 HTTP를 통해 모든 맵퍼 출력의 관련 파티션을 가져옵니다.
이 단계에서 (다른 맵퍼 출력 동일한 키를 가질 수 있기 때문에) 분류
키에 의한 워크 그룹 감속기 입력이.
셔플 및 정렬 단계가 동시에 발생합니다. 맵 출력은 페치되고 병합됩니다.
여기에서이있어
내가 도움이 의지에게 희망 그것에 보라