을 실행하기 위해 아래 나에 대한 제안을해야 시나리오,대체 재귀 스파크 제출 작업
시나리오입니다.
스파크 프로그램은 하이브의 데이터에서 ETL 연산과 복잡한 결합을 수행해야합니다.
Nifi에서 수집 한 데이터가 연속 스트리밍이므로 Spark 작업을 가져온 데이터에서 1 ~ 2 분마다 실행하고 싶습니다.
어떤 것이 가장 좋은 옵션입니까?
스케줄러를 사용하여 1 분마다 촉발 작업을 트리거합니까? 작업을 재귀 적으로 spark 클러스터에 제출할 때 오버 헤드와 시간 지연을 어떻게 줄일 수 있습니까? 재귀 적으로 단일 프로그램을 실행하는 더 좋은 방법이 있습니까?
스파크 스트리밍 작업을 실행 하시겠습니까? 스파크 스트리밍 작업은 1 분마다 자동으로 실행되고 하이브의 데이터를 처리 할 수 있습니까? [스파크 스트리밍은 시간 기반으로 만 실행될 수 있습니까?]
이러한 시나리오를 처리하는 효율적인 메커니즘이 있습니까? 사전
감사 정보 Ehud Lev. – Achilles
스파크 스트리밍에 카프카를 사용하는 데는 두 가지 문제가있었습니다. 1) Kafka Oracle Connector에는 다음과 같은 문제점이 있습니다 - https://github.com/confluentinc/kafka-connect-jdbc/issues/101 2) 여러 데이터 스트림 (여러 테이블의 데이터에 대한 여러 주제)에서 복잡한 조인을 수행하는 것은 매우 어려웠습니다 스트리밍이 어렵다. 이러한 문제를 해결할 수있는 방법이 있습니까? – Achilles