시스템의 구성 요소를 확장하고 Storm (Trident)과 Spark간에 더 좋은 방법이되어야한다고 생각합니다.스파크 또는 스톰 (Trident)
그래서 우리는 redis 클러스터 내부에 저장된 최대 백만 개의 이벤트를 포함 할 수있는 2 개의 큰 세트를 가지고 있습니다. S1과 S2를 말하십시오.
이제 우리는 메시징 큐 (Kafka)에서 메시지를 읽고 S1과 S2 (기본적으로 ** S1∩S2을 찾습니다)에있는 모든 요소를 찾아야합니다. 이제 작은 세트를 위해 Redis 자체가 효율적으로 교차를 할 수 있지만, 우리는이 세트의 크기가 백만 개가 될 것으로 예상합니다. **
위의 해결 방법은 분산 계산 프레임 워크 (즉, Storm and Spark) .
나는 스톰과 함께 기본적인 스파우트와 볼트에 대해 약간의 경험이 있으며, 볼트의 내부에 논리의 논리를 써야하므로 효율적으로 작동하지 않을 것이라고 생각합니다. 트라이던트가 어떤 용도로 쓰일 수 있는지 알아보고 있지만, 적절하지 않을 수도 있습니다.
반면에 스파크는 교착 상태와 같은 작업을 제공하는 코어에서 RDD를 제공하며 상자 밖에서 동시에 처리 할 수 있으며 내 생각에 메시징 큐에서 메시지를 읽고 스파크 할 작업을 제출합니다 클러스터는 redis에서 읽고 S1∩S2를 효율적으로 계산합니다. 그래서, Spark이 우리의 유스 케이스에 적합 할 수 있다고 생각합니다. 스톰과 스파크 모두 도움이 될 경우 스톰 사용을 위해 기울어 질 것입니다.
여기에 누구도 일부 시각을 제공 할 수 있습니까?
감사 마티아스 :
는 카프카 스트림의 아파치 카프카의 문서보다 더 자세히 설명되어 있습니다 플루의 카프카 스트림 문서 참조 –