하이브 성능에 대해 몇 가지 질문이 있습니다.데이터를 하이브로 압축 데이터, 데이터 및 성능별로 클러스터
온라인으로 압축 된 데이터 (특히 ORC, Snappy)를 읽으면 데이터를 읽는 동안 성능이 향상 될 것입니다.
또한 주문 데이터를 사용하여 테이블에 데이터를로드하면 큰 파일이 1 개가되어 읽기 가용성이 떨어질 수 있습니다.
따라서 다른 순서로 동일한 효과를 얻으려면 클러스터를 사용하여 여러 개의 작은 파일을 만들어야합니다.
압축 된 데이터에 대한 실험을 데이터별로 수행하고 데이터로 정렬하여 성능을 확인했습니다.
현재 5 개의 데이터 노드와 1 개의 이름 노드가 있습니다. 각 테이블에로드 데이터 파일 19기가바이트 + 주변 (200 만 개 + 기록)이었다
: 내가봤을 때
CREATE EXTERNAL TABLE orc_t (....)
STORED AS ORC
LOCATION '...'
TBLPROPERTIES(orc.compress="SNAPPY")
내가 매우 손실과 혼란 스러웠 각 테이블의 성능 내가 달릴 쿼리이었다
SELECT * FROM orc_t WHERE date_format(st_time, 'yyyy-MM-dd') = '2017-05-20'
- 압축 데이터가 데이터가 압축 데이터를했다 보인다처럼
데이터를 43 초에서 43 초
내 5 개 데이터 노드에서 압축 해제 성능이 실제로 느려지는 읽기 기능이 충분합니까?
샘플 데이터가 충분하지 않습니까?
나는 뭔가를 놓치고 있습니까?
전문가가 위의 사항을 알려 주시기 바랍니다.
사용한다? 그런데 Zlib 압축을 사용하여 ORC를 시도하십시오 –
안녕하세요 cricket_007, 다시 만나서 반가워요! 내 st_time (timestamp)을 지정된 날짜 (yyyy-MM-dd 형식)와 비교하는 샘플 쿼리를 수행하고 있습니다. – James
클러스터 별 데이터 (여러 파일 데이터)가 데이터별로 정렬 (단일 대형 파일 데이터)보다 중요한 성능을 내지 못하는 이유를 묻습니다. 성능에 영향을 미치는 데이터 노드 때문입니까? – James