4 개의 파티션이있는 Kafka 토픽에 4 명의 작업자가있는 구조화 된 스트림을 배포했습니다.Spark Structured Streaming Executor와 Kafka 파티션 간의 매핑을 설명하십시오.
나는 작업자 < -> 파티션간에 일대일 매핑을 사용하여 4 개의 파티션에 4 명의 작업자를 배치 할 것으로 가정했습니다.
하지만 그건 사실이 아닙니다. 모든 파티션이 동일한 Executor에 의해 제공됩니다. 스레드 ID를 확인하고 실행 프로그램에 대한 로그를 기록하여이를 확인했습니다.
카프카 파티션과 스파크 스트럭처 드 스트림 간의 상관 관계를 보여주는 문서가 있습니까? 또한, 우리가 조정할 수있는 손잡이가 있습니까?
감사 인 Vignesh 사이에 1 대응 : 그것은 1, 간단한 병렬 처리를 제공합니다. 그러나 Structured Streaming 접근법을 파헤 치고 싶습니다. 구조화 된 스트리밍과도 동일합니까? –
구조화 된 스트리밍과 구형 스파크 스트리밍의 근본적인 차이점은 스파크 스트리밍에서 DStream을 얻게되고 구조화 된 스트리밍에서 스트리밍 데이터 프레임을 얻게된다는 것입니다. 1 : 1 병렬 처리는 동일하게 유지됩니다. –