2016-11-09 3 views
0

우리는 1,800 억 개의 행과 100 개 이상의 열이있는 OLAP 테이블을 보유하고 있으며 하이브에서는 볼륨이 8TB에 가깝습니다. 대부분의 열은 측정 기준이며 또한 측정 항목 열도 거의 없습니다. 대시 보드 애플리케이션을 실행하기위한 실시간 시스템 지원 임시 쿼리를 구축하고 싶습니다. 쿼리는 대기 시간이 10 초 미만으로 실행되어야합니다.OLAP 대규모 볼륨 데이터에 대한 실시간 쿼리 - 옵션

우리는 이러한 실시간 애드혹 쿼리 시스템을 구축하기위한 옵션을 찾고 있으며 가능한 옵션을 확인하고 올바른 시스템을 선택하는 데 실제로 고심하고 있습니다.

Presto은 hdfs를 직접 쿼리하는 데 사용할 수 있지만 이러한 대규모 볼륨에 대한 대기 시간이 짧은 쿼리는 지원할 것인지 확실하지 않습니다.

카산드라, 쿼리에 따라 사전 집계 된보기를 작성합니다.

드루이드, 사전 집계 된보기를 작성하고 흥미롭게 보일 수 있지만 엔터프라이즈 지원이없는 것으로 보입니다.

우리는 실제로 이러한 구성 요소를 선택하는 데 어려움을 겪고 있으며이 요구 사항에 적합한 다른 관련 도구를 찾지 못했습니다.

우리는 HDFS와 밀접하게 상호 작용할 수있는 도구/데이터베이스를 찾고 있습니다. 읽기 성능이 큰 볼륨에 적합하다면 다른 도구도 고려할 수 있습니다.

다른 도구에 대해 알아야 할 경우 구성 요소 선택에 대해 안내하고 도움을 요청하십시오.

+1

이것은 매우 복잡한 주제이며 쿼리 모양, 초당 쿼리 수, 필요한 업데이트 속도, 필수 일관성 등에 따라 달라집니다. 이러한 요구 사항에 대해 자세히 이해하지 않고 누구든지 시스템을 추천 할 수 있는지 확신 할 수 없습니다. –

+2

FB에서 알려 드릴 수 있습니다. Presto를 이와 같이 많은 응용 프로그램에 사용하지만 플래시의 오픈 소스 Presto Raptor 스토리지 시스템 또는 샤드 된 MySQL을 기반으로하는 사용자 정의 클로즈드 소스를 사용합니다. Raptor를 기반으로하는 한 시스템에서 우리는 훨씬 더 큰 데이터에 대한 작업을 수행하고 100 대가 넘는 머신에서 매시간로드 당 약 100-200 건의 쿼리를 실행합니다. –

+0

감사합니다. @DainSundstrom. 나는 나의 질문을 더 자세하게 업데이트 할 것이다. 그러나 Presto의 Cassandra 읽기 성능이 Hive를 사용하는 것보다 빠르다면 알려 주실 수 있습니까? – sureshsiva

답변

1

안녕하십니까. https://cwiki.apache.org/confluence/display/Hive/Druid+Integration 드루이드가 하이브와 밀접하게 통합되어있어 드루이드 (druid) 및 복잡한 중량 쿼리와 같은 빠른 데이터 저장소에서 일부 데이터를 쿼리 할 수있는 유스 케이스를 완벽하게 지원할 수 있습니다. Hive에 가입 ​​할 수 있습니다. 위의 나열된 해결 방법에서 druid 만 kafka, storm, flink rabitMQ 및 목록이 계속 이어지는 강력한 (하위 초 대기 시간) 실시간 처리 소방관이 있음을 유의하십시오. druid 매우 활발한 오픈 소스 커뮤니티를 가지고 있으며 야후 넷플릭스 (Yahoo NetFlix)와 같은 대형 기업을 포함한 수백 개 기업이 사용하고 있습니다. 또한 Hortonworks 및 Imply와 같은 엔터프라이즈 지원을 제공 할 최소한 2 개의 회사가 있습니다.

+0

와우. 나는 Hive-Druid 통합에 대해 몰랐다. 이 링크는 Hive 2.2.0에서 소개 될 것으로 보입니다. –