성능 향상 (예 : 조인)을 위해 먼저 테이블 통계를 계산하는 것이 좋습니다.하이브 또는 임팔라의 컴퓨팅 테이블 통계가 아파치 스파크를 가속화합니까?
하이브에서 내가 할 수있는 ::
analyze table <table name> compute statistics;
을 임팔라에서 :
는compute stats <table name>;
(하이브 테이블에서 읽는) 나의 불꽃 응용 프로그램은 미리 계산 된 통계의 혜택을합니까? 그렇다면 어떤 것을 실행해야합니까? 그들은 하이브 전이에 통계를 저장하고 있습니까? 매개 변수 spark.sql.autoBroadcastJoinThreshold
에 대한 스파크 1.6.1 (https://spark.apache.org/docs/1.6.1/sql-programming-guide.html)의 문서에서 내가 힌트를 발견 : 나는 클라우 데라에 5.5.4
주 스파크 1.6.1을 사용하고
참고가 현재 통계 Hive Metastore 테이블에 대해서만 지원됩니다.이 테이블은 ANALYZE TABLE COMPUTE STATISTICS noscan이 실행되었습니다.