2017-05-08 14 views
0

순차 파일의 행 수를 취하는 다음 작업이 있습니다. 예를 들어 여러 노드에서 실행될 때 4 개의 다른 행 수가 표시됩니다. 행 수를 가진 하나의 행만 출력하는 방법은 무엇입니까? 어떤 도움을 크게 감상 할 수Aggregater Stage가 잘못된 행 수를 출력합니다.

> 순차 파일! -

소스 -> 변압기 (이 계산을 위해 더미 행이) -> 어 그리 게이터 무대 감사!

+0

Aggregator Stage에 그룹화를위한 키 열이 필요합니다. 파티션 유형이 auto로 유지되면 데이터의 파티션은이 키 컬럼에서 수행됩니다. 그래서 문제는 다중 노드 때문이 아닙니다. 당신의 성명서에서, 나는 그 더미 행을 열쇠로 사용한다고 생각합니다. dummy 행은 모든 행에서 동일한 값을 가져야합니다. 그런 다음 모든 행만 동일한 분할 영역으로 이동하고 전체 행 수와 함께 하나의 행을 가져옵니다. – adhithiyan

답변

0

집계 단계 (단계 - 고급 탭)에 대해 실행 모드를 순차로 설정할 수 있습니다. 작업이 대량의 데이터를 처리하지 않는 경우 성능이 저하 될 수 있습니다. 큰 볼륨을 처리하는 경우에는 집계를 병렬로두고 다른 집계를 추가하고 대신 THAT을 순차로 설정하십시오.