2017-12-04 25 views
0

15-30 수백만 행의 데이터를 저장해야합니다. 대부분의 쿼리는 작업별로 그룹화됩니다 (집계). 현재 데이터베이스 백엔드로 Teradata를 사용하고 있습니다. 하지만 응답 시간은 실시간이 아닙니다 (일부 쿼리의 경우 약 30 초 소요). 나는 대체품으로 카산드라를 조사하고 있었지만 어떤 문서에서는 작업별로 그룹이 있다면 카산드라가 최선의 선택이 아니라는 것을 발견했습니다.수백만 행의 실시간 집계 연산에 적합한 데이터베이스 유형

최대 100 명의 사용자가 한 번에 (데이터 업데이트가 동시에 진행되는 경우) 응용 프로그램을 사용할 것이라는 점을 감안할 때 어느 데이터베이스가 가장 적합한 지 알고 싶습니다. 전통적인 RDBMS는 이러한 종류의 요구 사항을 처리 할 수 ​​있습니까?

도움을 주시면 감사하겠습니다. 미리 감사드립니다.

+0

30M은 매우 낮은 데이터이므로 테이블에서 스큐 요인 분석을 실행해야합니다 테라 데이타가 처리 할 볼륨. 집계 실행을 위해 광범위한 조인을 실행하면 조인 인덱스를 조사 할 수도 있습니다. 클러스터에 몇 개의 노드가 있습니까? 그리고 검색어에 대한 통계를 수집하는 것을 잊지 마십시오 (diag helpstats 사용). –

+0

Teradata의 성능 문제를 해결할 때 많은 부분을 고려해야합니다. Ravioli와 Access_Granted는 그들 중 일부를 다루었습니다. 물리적 인 데이터 모델, 쿼리 및 환경의 구성을 어느 정도 알지 못하면 질문의 폭이 넓어집니다. 전술적 쿼리 성능이 필요한 경우 실제 데이터 모델 (모든 인덱스 포함), 쿼리 및 기존 통계가 도움이됩니다. 또한 작동하는 워크로드 관리 구성 요소가 있지만 다른 세부 사항에는 보조입니다. –

답변

0

카산드라 자체 집계에 매우 좋지 않다, 테라 데이타가 마음에 병렬로 매우 큰 데이터 세트를 처리 할 수 ​​있도록 설계되어 대부분 선형 적으로 확장해야

0

카산드라 + 폭풍/스파크 고려하십시오. 즉, 리소스에 의존하는 쿼리에 더 많은 힘을 더하고 성능을 향상 시키십시오.

현재 30 초 검색어에 어떤 병목 현상이 있습니까? 보기 위해 EXPLAIN과 함께 샘플 쿼리를 게시 할 수 있습니까? 통계 최적화, 인덱스 선택, 조인 인덱스, PPI (테이블 파티셔닝) 등이 빠른 속도로 최적화 될 수 있습니다.