그래서,이 stackoverflow 게시물을 기반으로 셔플 링을 일으키는 Spark 연산을 테스트하려고 시도했습니다 : LINK. 그러나 cartesian
작업이 스파크에서 셔플 링을 일으키지 않을 때 나에게 의미가있는 것은 아닙니다. 왜냐하면 로컬에서 파티션을 공유하기 위해 네트워크를 통해 파티션을 이동해야하기 때문입니다.스파크 데카르트는 셔플을 발생시키지 않습니까?
Spark는 실제로 장면 뒤에서 cartesian
및 distinct
작업을 수행합니까?
그래서 어떤 작업이 Spark에서 네트워크 트래픽을 필요로하는지 어떻게 알 수 있습니까? 언급했듯이 '데카르트'는 실제로 데이터 이동을 기반으로 한 비싼 작업입니다. 그러므로 우리가 피해야 할 다른 행동이 무엇인지 알고있는 것이 좋습니다. – Tim
연산이'mapPartitions'만으로 표현된다면 ('map','filter' 등) 데이터 이동이 필요 없습니다. 그렇지 않으면 아마 다른 방법으로 데이터를 이동합니다. – zero323
더 많은 정보 official spark docs http://spark.apache.org/docs/latest/programming-guide.html#shuffle-operations – DanielVL