impala 내부 테이블이나 csv, parquet, hbase와 같은 외부 테이블 형식과 같은 여러 종류의 파일 형식이 있습니다. 이제 평균 삽입 비율이 50K 행/초이고 각 행이 약 1K임을 보장해야합니다. 또한 일부 데이터는 간혹 업데이트 될 수 있습니다. 또한 이러한 데이터에 대해 일부 집계 연산을 수행해야합니다.임팔라를 사용할 때 데이터 모델을 선택하는 방법을 아는 사람이 있습니까?
외부 테이블과 임팔라를 사용할 때 Hbase가 큰 집계 계산에 적합하지 않다고 생각합니다. 아무도 그것에 대해 제안을 가지고 있습니까?
감사합니다.
매우 훌륭한 제안입니다. 시나리오를 기반으로 키를 다시 설계하려고합니다. 그건 그렇고, 우리는 버퍼를 시도, 그것은 극적으로 삽입 성능을 향상시킬 수 있습니다. 귀하의 도움에 매우 감사드립니다! –
키를 계획 할 때 순차적 행 키가 지역 핫스팟 문제를 일으킬 수 있다는 점에 유의하십시오. (http://blog.sematext.com/2012/04/09/hbasewd-avoid-regionserver 쓰기에도 불구하고 기록 - 순차 키 포함). 질문을 해결했다면 답변을 수락하십시오. –
BTW, HBase의 읽기 성능은 50K 스캐너 캐시 크기의 지역 서버 당 +500000 req/sec였습니다. 이번 주말에 몇 가지 HIVE 쿼리를 실행했습니다 (전체 테이블 스캔). 임팔라에서 캐시 크기는 "HBASE_CACHING"쿼리 옵션을 사용하여 설정할 수 있습니다. –