내 데이터 세트의 일부에 대해 최신 하이브를 테스트하고 있습니다. 사용자 정의 SerDe를 통해 읽는 것은 단지 2GB의 로그 파일입니다.(작은) 데이터 세트를 위해 Apache Hive에서 쿼리를 병렬화하는 방법
나는 쿼리 (4 개 MR 작업), 나는 로그를 얻고함으로써 간단 그룹을 실행하면 다음과 같은
- 지도 :
- 가 감소 100 % : 0 %
- 지도 : 85 %
- 감소 : 0 %
- 지도 :
- 줄이기 86 % : 0 %
8 코어 서버에서 하나의 코어 만 사용합니다. 낭비의 종류 ...
병렬 옵션을 활성화했지만 여전히 병렬 처리하지 않습니다. 줄이기 작업 수를 8로 설정했습니다.
데이터 세트가 다른 파일 (=> 다른 파일)이므로 적어도 일부 맵 축소 단계를 해당 파일에서 병렬로 실행할 수 있습니다. .
내 이해가 잘못 되었나요? 검색어를 작성하는 구체적인 방법이 있습니까?
감사
답변 해 주셔서 감사합니다. 그것은 주로 로컬 모드에서 증명 테스트를했기 때문에 주로 여러 작업을 실행하지 못했기 때문이었습니다. 가상 클러스터로 변경하고 제안 된대로 여러 개의 맵과 축소판을 병렬로 실행하도록 허용하자 마자 작동했습니다. –