2017-10-01 14 views
0

두 개의 큰 테이블을 조인해야하기 때문에 pyspark 코드에서 spark.sql.shuffle.partitions configure를 재설정하려고합니다. 그러나 다음 코드는 최신 스파크 버전에서 작동하지 않는 오류는 말한다 나는 "spark.sql.shuffle을 재설정하는 방법을 알고 싶습니다가장 최근의 스파크 버전을 사용할 때 spark.sql.shuffle.partitions를 설정하는 방법

#!/usr/bin/python 
# -*- coding: utf-8 -*- 
import sys 
import pyspark 
from pyspark.context import SparkContext 
from pyspark.sql.session import SparkSession 
sc = SparkContext('local') 
spark = SparkSession(sc) 

spark.sparkContext.setConf("spark.sql.shuffle.partitions", "1000") 
spark.sparkContext.setConf("spark.default.parallelism", "1000") 

# or using the follow, neither is working 
spark.setConf("spark.sql.shuffle.partitions", "1000") 
spark.setConf("spark.default.parallelism", "1000") 

"XXX에서 ""어떤 방법 "setConf 그 . 파티션 ".

답변

0

SparkSession은 Spark 관련 매개 변수를 설정하고 가져 오는 RuntimeConfig 인터페이스를 제공합니다. 귀하의 질문에 대한 답변은 다음과 같습니다

spark.conf.set("spark.sql.shuffle.partitions", 1000) 

는 참고 : 나는 귀하의 질문에 pyspark에 대한 것을보고 싶었어 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.RuntimeConfig

. Pyspark도 비슷한 인터페이스를 가지고있다. spark.conf. 참조 : https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=sparksession#pyspark.sql.SparkSession.conf

+0

감사합니다. :) 대단히 감사합니다. –

+0

다행입니다. 다행이라면 다 잘될 수 있겠습니까? –