2017-04-11 7 views
-1

이벤트를 실시간 또는 거의 실시간으로 처리하는 데 필요한 이벤트 처리 응용 프로그램이 있습니다. 분당 5000-10000 개의 메시지가 수신 될 것으로 예상됩니다. 들어오는 이벤트를 처리하려면 추가 데이터 요소를 가져와야합니다.이벤트 처리 중 이벤트 기능 보강

예를 들어 재정 영역을 고려해 보겠습니다. 따라서 들어오는 이벤트는 트랜잭션이고 처리는 여러 가지 비즈니스 규칙을 통해 유효성을 검사하여 나타냅니다. 추가 데이터 요소는 다양하며 계정 정보, 고객 정보 및이 특정 계정의 이전 거래 (중요!)가 포함됩니다 (이에 국한되지 않음). 거래를 처리하기 위해 100 일 동안 역사를 되돌아 볼 필요가 있다고 가정 해 봅시다. 또한 이벤트 처리가 꽤 복잡하다는 것을 언급 할 가치가 있습니다. 요구 사항 중 하나는 데이터를 가져 오기 위해 다양한 패턴을 지원하는 강력한 쿼리 언어를 사용하는 것입니다.

문제는 이러한 이벤트 처리를 위해 데이터를 저장하고 가져올 때 어떤 솔루션/제품을 선택해야하는지입니다.

데이터의 볼륨이 높다는 가정하에 관계형 데이터베이스는 전혀 옵션이 아닙니다. 따라서 솔루션을 쉽게 확장 할 수 있어야합니다.

현재 내 마음에 무엇입니까 :

  1. HDFS +는

이 어떤 생각 스파크

  • 카산드라 + 스파크
  • HDFS/HBase를 + 스파크?

  • 답변

    1

    100-200 이벤트 두 번째는 큰 규모는 아니지만 당신은 얼마나 잘 데이터가 분산됩니다 등이 될 수 동일해야 또는 적어도 공통 데이터 여러 이벤트를 얻을 수있는 확률과 같은 데이터 크기 및 기타 문제를 언급하지 않았다 .

    질문의이 유형은 크게 HBase를하고 카산드라 모두가 당신의 목적을 위해 신속하게 데이터를 가져 오기 위해 할 수 있다고 말했다 관련 솔루션을 영향을줍니다. Spark와 HDFS는 필요한 모든 데이터를 메모리에로드 할 수있는 경우에만 적합합니다 (어쨌든 HDFS가 필요하지 않은 경우).

    모든 데이터 또는 가장 관련성있는 데이터를 메모리에 저장할 수 있다면 아파치 점화 또는 아파치 기수와 같은 메모리 내 데이터 그리드