2015-01-27 10 views
2

내 시나리오에 NoSQL db 또는 기술/도구를 사용해야한다고 말할 수 있는지 궁금합니다. 우리는 SQL 서버 분석 서비스를 기반으로 한 OLAP 큐브를 오픈 소스 기술로 대체하려고합니다. 데이터가 너무 커져서 관리하기가 너무 어려워지고 쿼리가 너무 오래 돌아 오면 오래 걸릴 것입니다. 우리는 책의 모든 규칙을 따라 데이터를 분할하고 집계 및 파티션 등을 사용하여 큐브의 디자인을 최적화했으며 여전히 고유 한 계산 쿼리 중 일부는 1-2 분이 걸립니다. (사실 테이블의 데이터 크기는 대략 250GB이고, 10-12 개의 차원이 스타 스키마 형식으로 연결되어 있습니다즉시 쿼리를 위해 MOLAP 큐브를 대체 할 수있는 NoSQL 기술은 무엇입니까?

그래서 우리는 Hadoop/HBase/NoSQL DB와 같은 오픈 소스 기술을 제공하기로 결정했습니다. 최소한의 설정과 온 보딩으로 OLAP 시나리오를 해결할 수 있는지 확인하기 위해 노력했습니다. . 새로운 기술에 대한

우리의 주요 요구 사항은

  1. 그것은 blazin 얻을 수있다이다 g 고유 카운트 쿼리에 대한 빠른 또는 즉각적인 결과 (< 2 초)

  2. OLAP와 같은 측정 값 및 차원의 개념을 지원합니다.

  3. 많은 개발자가 SQL 전문가 인 것처럼 SQL을 지원합니다.
  4. Excel/Tableau를 연결하여 데이터를 시각화 할 수있는 기능.

오픈 소스 세계에 새로운 기술과 도구가 너무 많아서 올바른 방향을 지적 할 수 있다면 좋겠다.

+0

나는 SQL 전문가가 아니지만 지금까지 내가 아는 한 SQL 데이터베이스가 아닌 데이터를 분석하고 저장하고 검색하기 만하면된다. 이러한 데이터를 분석하려면 Apache SPARK와 같은 데이터 처리 엔진이 필요합니다. 큰 데이터 처리는 사실 빠른 쿼리를 사용한 실시간 분석보다 긴 배치 처리 (몇 시간에서 몇 시간)가 연속적으로 더 많습니다. 고유 카운트 쿼리에 대한 순수한 성능에 관해서는 250GB 램이 옵션이라고 가정 할 때 MongoDB는 순수 메모리 내 데이터베이스로 사용할 수 있습니다. – GaelFG

+0

@GaelFG Hadoop + HBase 또는 Neo4j와 같은 데이터 분석에 중점을 둔 NoSQL 기술도 있습니다. 이것이 NoSQL이라는 용어의 문제입니다. 일반화가 지나치게 단순화 된 넓은 분야입니다. NoSQL에 대해 일반적으로 말할 수있는 유일한 진술은 "SQL을 사용하지 않고 데이터를 저장하는 기술"입니다. – Philipp

+0

mongodb는 SQL 쿼리를 지원합니까? mongodb 인스턴스에 연결할 수 있거나 드라이버처럼 많은 코드를 작성하지 않고 상자 밖으로 클러스터 할 수있는 tableau와 같은 시각화 도구가 있습니까? 250GB 머신이 없다면 어떨까요? 여러 차원에서 슬라이싱 및 데이터를 허용하는 차원 및 측정 개념을 지원합니까? – user330612

답변

4

참고 : Apache Kylin 팀 출신입니다.

당신을 위해 몇 가지 아이디어를 가져올 수 아래 답변을 참조하십시오 :

우리의 주요 요구 사항을 새로운 기술 그것은 빠른 타오르는 또는 고유 한 카운트 쿼리에 대한 즉각적인 결과 (< 2 초) 얻을하는 있습니다

- 루크 : 90 % 타일 쿼리 대기 시간은 5 초 미만입니다. 현재 통계입니다. 뚜렷한 숫자에 대한 < 2 초 동안 얼마나 많은 데이터가 있습니까? 대략적인 결과는 괜찮습니까?

측정 및 치수 개념을 지원합니다 (예 : OLAP).

--Luke : 기린은 쿼리 언어 많은에게 같은 차원 (또는 계층 지원) 및 측정 (합계/카운트/최소/최대/평균/DistinctCount) 정의

지원 SQL을 가지고 순수 OLAP 엔진입니다 우리 개발자들은 SQL 전문가입니다. --Luke : 기린 지원 ANSI의 SQL 인터페이스 (대부분의 SELECT 기능) 데이터를 시각화하는 엑셀/극적 장면을 연결하는

능력.

루크 : Kylin은 Tableau와 매우 잘 작동하며 Excel/PowerBI는 곧 제공 될 예정입니다.

질문이 있으시면 알려주십시오.

감사합니다.

+0

Luke에게 감사드립니다. 나는 Kylin에 관한 Q를 거의 가지고 있지 않다. – user330612

+0

질문이 있으시면 언제든지 저에게 연락하십시오. 감사. – LukeHan

+0

나는 거의 비슷한 목표를 가지고있다. 하지만 PPS 및 Power Bi 보고서를 사용하고 있습니다. PPS는 추가 작업 및 olap 측정 (mdx)과 강력하게 바인딩됩니다. Kylin에 추가 작업과 계산을 쓸 수 있습니까? –

1

"Kylin"처럼 보입니다. http://www.kylin.io/이 내 대답입니다. 이것에는 내가 원했던 것보다 훨씬 더 많은 요구 사항이 있습니다. 나는 지금 시험해 볼거야! :)