2013-03-28 10 views
1

많은 시계열 데이터 (시간 = 값, 시간 = 값 ...)를 수집/저장하는 조직에서 근무하고 있습니다. 오늘 우리는 역사가를 사용하여이 데이터를 수집하고 처리합니다. 역사가를 사용하는 주된 이점은 데이터를 압축하고 데이터 저장 측면에서보다 효율적이었습니다. 그러나 Big Data, NoSQL과 같은 기술을 사용하면 데이터를 압축하는 노력 (스토리지 $$)이 사라지고 추세가 "많은"데이터를 저장하는 경향이 있습니다.NoSQL (BigTable ...) 및 TimeSeries 데이터

  1. 누가 시계 데이터를 BigData 솔루션으로 바꾸는 실험을 해 보았습니까? 나는 OpenTSDB에 대해 알고있다. 누군가가 비 IT 역할에 이것을 사용 했는가?
  2. NoSQL 데이터베이스 (카산드라 ...)는 시계열 데이터에 적합합니까? 그렇다면 구현은 어떻게 될 것입니까?

답변

0

단지 수집이나 저장에 중요합니까? 아니면 분석의 속도 또는 용이성이 필수입니까?

가장 합리적인 데이터 크기의 경우 표준 SQL이면 충분합니다.

특히 분석을 위해 바람직하게는 메모리 내 및 열 기반 데이터베이스가 필요합니다. 가장 높은 끝에 이것은 모든 주요 은행 ($$ 비싼)에 의해 사용되는 kx.com에 의한 kdb를 의미합니다. 그러나 오픈 소스에 관해 특별히 묻는다면 데이터 크기 및 액세스 요구 사항에 따라 메모리에서 monetdb 또는 mysql을 고려해야합니다.

Cassandra는 nosql 묶음에서 더 적절한 선택 중 하나이며 사람들은 이미이 매개 변수를 사용해 보았습니다. http://www.datastax.com/dev/blog/advanced-time-series-with-cassandra http://synfin.net/sock_stream/technology/advanced-time-series-metric-data-with-cassandra

이 나는 ​​일이 일을 얻을 수있는 가장 작은 데이터 수준에서 약 해킹 많은 시간을 소비하고 자세한 코드를 많이 작성하는 것을 발견했다. 다음 여러 서버를 통해 내 데이터를 확산 시도하려고 한 여러 대의 컴퓨터를 사용하여 비효율적 인 스토리지를 보완했습니다. 평가할 때 시간 지원 및 시간 조종 기능이 좋지 않아 훨씬 더 많은 작업을 수행 할 수 없었습니다. 단지 범위를 쉽게 끌어내는 것보다 그런 이유로 나는 카산드라에서 계속 전진했다.

+0

어디에서 카산드라로 이사 했습니까? 나는 알고있는 것이 좋을 것이라고 생각한다. 새로운 솔루션이 "가장 작은 데이터 레벨에서 해킹"하지 않고도 필요한 솔루션을 제공 했습니까? –