amazon EMR 인스턴스에서 pynpark를 실행하여 dynamodb에서 데이터를 읽으려는 중 코드의 분할 및 작업자 수를 설정하는 방법을 알고 싶습니다.pyspark에서 분할 및 감속기 수를 설정하는 방법
다음 두 문서의 지침에 따라 현재 dynamoDB에 연결되어 있고 데이터를 읽는 아래 코드가 있습니다. connecting to dynamoDB from pyspark 및 Pyspark documentation
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()
conf = {"dynamodb.servicename": "dynamodb", "dynamodb.input.tableName":
"Table1", "dynamodb.endpoint": "https://dynamodb.us-east-
1.amazonaws.com", "dynamodb.regionid":"us-east-1",
"mapred.input.format.class":
"org.apache.hadoop.dynamodb.read.DynamoDBInputFormat",
"mapred.output.format.class":
"org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat"
orders = sc.hadoopRDD(inputFormatClass="org.apache.hadoop.dynamodb.read.DynamoDBInputFormat",
keyClass="org.apache.hadoop.io.Text",
valueClass="org.apache.hadoop.dynamodb.DynamoDBItemWritable", conf=conf)
내가 인스턴스 및 SparkConf 클래스의 병렬 처리의 값을 변경하려고하지만 그게 분할 및 감속기를 설정
SparkConf().set('spark.executor.instances','4')
SparkConf().set('spark.default.parallelism', '128')
변수 SparkContext에 미치는 영향을 확인하고, 하지만 그것을 변경하지 않는 것 같습니다.