우리는 1,800 억 개의 행과 100 개 이상의 열이있는 OLAP 테이블을 보유하고 있으며 하이브에서는 볼륨이 8TB에 가깝습니다. 대부분의 열은 측정 기준이며 또한 측정 항목 열도 거의 없습니다. 대시 보드 애플리케이션을 실행하기위한 실시간 시스템 지원 임시 쿼리를 구축하고 싶습니다. 쿼리는 대기 시간이 10 초 미만으로 실행되어야합니다.OLAP 대규모 볼륨 데이터에 대한 실시간 쿼리 - 옵션
우리는 이러한 실시간 애드혹 쿼리 시스템을 구축하기위한 옵션을 찾고 있으며 가능한 옵션을 확인하고 올바른 시스템을 선택하는 데 실제로 고심하고 있습니다.
Presto은 hdfs를 직접 쿼리하는 데 사용할 수 있지만 이러한 대규모 볼륨에 대한 대기 시간이 짧은 쿼리는 지원할 것인지 확실하지 않습니다.
카산드라, 쿼리에 따라 사전 집계 된보기를 작성합니다.
드루이드, 사전 집계 된보기를 작성하고 흥미롭게 보일 수 있지만 엔터프라이즈 지원이없는 것으로 보입니다.
우리는 실제로 이러한 구성 요소를 선택하는 데 어려움을 겪고 있으며이 요구 사항에 적합한 다른 관련 도구를 찾지 못했습니다.
우리는 HDFS와 밀접하게 상호 작용할 수있는 도구/데이터베이스를 찾고 있습니다. 읽기 성능이 큰 볼륨에 적합하다면 다른 도구도 고려할 수 있습니다.
다른 도구에 대해 알아야 할 경우 구성 요소 선택에 대해 안내하고 도움을 요청하십시오.
이것은 매우 복잡한 주제이며 쿼리 모양, 초당 쿼리 수, 필요한 업데이트 속도, 필수 일관성 등에 따라 달라집니다. 이러한 요구 사항에 대해 자세히 이해하지 않고 누구든지 시스템을 추천 할 수 있는지 확신 할 수 없습니다. –
FB에서 알려 드릴 수 있습니다. Presto를 이와 같이 많은 응용 프로그램에 사용하지만 플래시의 오픈 소스 Presto Raptor 스토리지 시스템 또는 샤드 된 MySQL을 기반으로하는 사용자 정의 클로즈드 소스를 사용합니다. Raptor를 기반으로하는 한 시스템에서 우리는 훨씬 더 큰 데이터에 대한 작업을 수행하고 100 대가 넘는 머신에서 매시간로드 당 약 100-200 건의 쿼리를 실행합니다. –
감사합니다. @DainSundstrom. 나는 나의 질문을 더 자세하게 업데이트 할 것이다. 그러나 Presto의 Cassandra 읽기 성능이 Hive를 사용하는 것보다 빠르다면 알려 주실 수 있습니까? – sureshsiva