2017-10-09 9 views
0

4 개의 파티션이있는 Kafka 토픽에 4 명의 작업자가있는 구조화 된 스트림을 배포했습니다.Spark Structured Streaming Executor와 Kafka 파티션 간의 매핑을 설명하십시오.

나는 작업자 < -> 파티션간에 일대일 매핑을 사용하여 4 개의 파티션에 4 명의 작업자를 배치 할 것으로 가정했습니다.

하지만 그건 사실이 아닙니다. 모든 파티션이 동일한 Executor에 의해 제공됩니다. 스레드 ID를 확인하고 실행 프로그램에 대한 로그를 기록하여이를 확인했습니다.

카프카 파티션과 스파크 스트럭처 드 스트림 간의 상관 관계를 보여주는 문서가 있습니까? 또한, 우리가 조정할 수있는 손잡이가 있습니까?

답변

0

DirectStream API를 사용하는 경우 상관 관계는 1 : 1 (sparkcore : partition)입니다.

, spark streaming guide에서 카프카 0.10에 대한 통합 스트리밍 스파크 0.8 직접 스트림 방식으로 디자인과 유사하다. 카프카의 파티션과 스파크 파티션 및 오프셋에 액세스 및 메타 데이터

+0

감사 인 Vignesh 사이에 1 대응 : 그것은 1, 간단한 병렬 처리를 제공합니다. 그러나 Structured Streaming 접근법을 파헤 치고 싶습니다. 구조화 된 스트리밍과도 동일합니까? –

+1

구조화 된 스트리밍과 구형 스파크 스트리밍의 근본적인 차이점은 스파크 스트리밍에서 DStream을 얻게되고 구조화 된 스트리밍에서 스트리밍 데이터 프레임을 얻게된다는 것입니다. 1 : 1 병렬 처리는 동일하게 유지됩니다. –