2
나는이 Apache Spark documentation을 통해가는, 그것은 것을 언급 :설정 환경 변수는
cluster
모드에서 원사에 스파크를 실행, 환경 변수 필요에spark.yarn.appMasterEnv.[EnvironmentVariableName]
속성을 사용하여 설정할 수conf/spark-defaults.conf
파일
EMR 클러스터를 AWS 데이터 파이프 라인에서 실행하고 있습니다. 나는이 conf 파일을 어디에서 편집해야하는지 알고 싶었다. 또한, 내 자신의 사용자 정의 conf 파일을 만들고 --configurations
(spark-submit에서)의 일부로 지정하면 내 유스 케이스가 해결 될까요?
spark-submit \
--driver-memory 2g \
--executor-memory 4g \
--conf spark.executor.instances=4 \
--conf spark.driver.extraJavaOptions="-DENV_KEY=ENV_VALUE" \
--conf spark.executor.extraJavaOptions="-DENV_KEY=ENV_VALUE" \
--master yarn \
--deploy-mode cluster\
--class com.industry.class.name \
assembly-jar.jar
내가 EMR 및 클라이언트에서 테스트 한 (까다로운 부분은 당신이 설정에 모두 집행 및 드라이버 매개 변수에 대한 환경 변수를해야 할 수도 있다는 것입니다) : 그것을 할
환경 변수가 아닌 JVM 속성이어야합니다. 또는 나는 무엇인가 놓치고 있냐? –
당신 말이 맞아요. 내 대답은 JVM 속성의 경우를 다룹니다. 이 경우'spark.yarn.appMasterEnv. [EnvironmentVariableName]'과'spark.executorEnv. [EnvironmentVariableName]'이 각각 드라이버와 executor에 사용되어야한다. – Zouzias