나는 다음과 같은 속성Hive에서 combineInputFormat은 어떻게 작동합니까?
50 개 파일을 갖는
- 이 TextFile 형식으로 하이브 테이블이 포맷을 DESCRIBE "에서 테이블 매개 변수를 따릅니다 "명령
테이블 매개 변수 :
COLUMN_STATS_ACCURATE true numFiles 50 totalSize 170774650
나는이 테이블에 COUNT (*) 작업을 수행하고 있으며 함께 실행
- 4 매퍼 내 독립 클러스터 AWS 클러스터
- 1 매퍼 1 감속기 1 감속기 . 의사 클러스터 모드 설치]
모두 하이브 세션의 최대 크기는 분할 2백56메가바이트
결합 입력 형식이 어떻게 작동하는지 알고 싶습니까?
단일 컴퓨터에서는 모든 파일/블록이 동일한 컴퓨터에 있고 데이터를 합친 크기가 최대 분할 크기보다 작으므로 단일 분할 및 따라서 단일 매퍼 을 요구합니다.
다른 경우 AWS 클러스터로 인해 4 개의 매퍼가 생성되었습니다. 나는 CombineInputFormat이 rack/machine 지역을 사용하지만 정확히 어떻게 사용했는지 읽었다.
미리 답변 해 주셔서 감사합니다.