-1

을 실행하기 위해 아래 나에 대한 제안을해야 시나리오,대체 재귀 스파크 제출 작업

시나리오입니다.

스파크 프로그램은 하이브의 데이터에서 ETL 연산과 복잡한 결합을 수행해야합니다.

Nifi에서 수집 한 데이터가 연속 스트리밍이므로 Spark 작업을 가져온 데이터에서 1 ~ 2 분마다 실행하고 싶습니다.

어떤 것이 가장 좋은 옵션입니까?

스케줄러를 사용하여 1 분마다 촉발 작업을 트리거합니까? 작업을 재귀 적으로 spark 클러스터에 제출할 때 오버 헤드와 시간 지연을 어떻게 줄일 수 있습니까? 재귀 적으로 단일 프로그램을 실행하는 더 좋은 방법이 있습니까?

스파크 스트리밍 작업을 실행 하시겠습니까? 스파크 스트리밍 작업은 1 분마다 자동으로 실행되고 하이브의 데이터를 처리 할 수 ​​있습니까? [스파크 스트리밍은 시간 기반으로 만 실행될 수 있습니까?]

이러한 시나리오를 처리하는 효율적인 메커니즘이 있습니까? 사전

답변

0
  1. 에서

    덕분에 당신은 매 순간 당신을보다 효율적으로 사용할 스파크 스트리밍이 아닌 일괄 처리를 실행하는 것이 필요합니다.

  2. 더 빠르기 때문에 하이브 테이블이 아닌 kafka에서 직접 데이터를 가져오고 싶을 수 있습니다.

더 나은 배치/스트림은 무엇입니까? 스파크 스트리밍은 모든 "배치 간격"을 실행하는 마이크로 배치 프로세스로 생각할 수 있습니다.

읽을 내용 : https://spark.apache.org/docs/latest/streaming-programming-guide.html

+0

감사 정보 Ehud Lev. – Achilles

+0

스파크 스트리밍에 카프카를 사용하는 데는 두 가지 문제가있었습니다. 1) Kafka Oracle Connector에는 다음과 같은 문제점이 있습니다 - https://github.com/confluentinc/kafka-connect-jdbc/issues/101 2) 여러 데이터 스트림 (여러 테이블의 데이터에 대한 여러 주제)에서 복잡한 조인을 수행하는 것은 매우 어려웠습니다 스트리밍이 어렵다. 이러한 문제를 해결할 수있는 방법이 있습니까? – Achilles