Logstash와 Spark Streaming 사이에서 Apache Kafka를 사용하여 로그 데이터를 비즈니스 로직 (Spark에서 정의)으로 가져 오는 것이 옳은가요?

로그 데이터를 AWS의 Elasticsearch Service로 보내려면 Logstash를 사용하고 있습니다. 이제는 Spark Streaming에 정의 된 비즈니스 로직을 실시간으로 로그 데이터에 적용하고자하므로 중간에 Amazon SQS 또는 Apache Kafka를 사용하려고합니다.Logstash와 Spark Streaming 사이에서 Apache Kafka를 사용하여 로그 데이터를 비즈니스 로직 (Spark에서 정의)으로 가져 오는 것이 옳은가요?

이 시나리오에서 카프카를 사용하는 것이 맞습니까?

감사합니다.

솔루션을 아마존 제품에 연결하려면 답이 무엇입니까? 그러나 예 카프카는이 용도에 적합합니다.

실제로 카프카는 이제 레디 스 대신 ELK 스택에 사용됩니다. 또한 Spark Streaming은 Kafka를 기반으로 실패시 메시지를 재생할 수 있습니다.

비즈니스 로직에 따라 다르지만 Elasticsearch에 삽입하기 전에 Spark Streaming을 사용하여 데이터를 필터링하고 변환하는 경우 KafkaStreams를 살펴 봐야합니다.

KafkaStreams는 마스터/슬레이브 노드를 배포 할 필요없이 카프카 메시지 (변환, 필터, 집계)를 조작 할 수있는 우아한 DSL (Spark)을 제공합니다.

2016-06-08 13:49:25 fhussonnois

답변