2017-11-28 12 views
2

나는이 Apache Spark documentation을 통해가는, 그것은 것을 언급 :설정 환경 변수는

cluster 모드에서 원사에 스파크를 실행, 환경 변수 필요에 spark.yarn.appMasterEnv.[EnvironmentVariableName] 속성을 사용하여 설정할 수 conf/spark-defaults.conf 파일

EMR 클러스터를 AWS 데이터 파이프 라인에서 실행하고 있습니다. 나는이 conf 파일을 어디에서 편집해야하는지 알고 싶었다. 또한, 내 자신의 사용자 정의 conf 파일을 만들고 --configurations (spark-submit에서)의 일부로 지정하면 내 유스 케이스가 해결 될까요?

spark-submit \ 
--driver-memory 2g \ 
--executor-memory 4g \ 
--conf spark.executor.instances=4 \ 
--conf spark.driver.extraJavaOptions="-DENV_KEY=ENV_VALUE" \ 
--conf spark.executor.extraJavaOptions="-DENV_KEY=ENV_VALUE" \ 
--master yarn \ 
--deploy-mode cluster\ 
--class com.industry.class.name \ 
    assembly-jar.jar 

내가 EMR 및 클라이언트에서 테스트 한 (까다로운 부분은 당신이 설정에 모두 집행 및 드라이버 매개 변수에 대한 환경 변수를해야 할 수도 있다는 것입니다) : 그것을 할

답변

0

한 가지 방법은이 다음이다 모드이지만 클러스터 모드에서도 작동해야합니다.

+0

환경 변수가 아닌 JVM 속성이어야합니다. 또는 나는 무엇인가 놓치고 있냐? –

+0

당신 말이 맞아요. 내 대답은 JVM 속성의 경우를 다룹니다. 이 경우'spark.yarn.appMasterEnv. [EnvironmentVariableName]'과'spark.executorEnv. [EnvironmentVariableName]'이 각각 드라이버와 executor에 사용되어야한다. – Zouzias