2017-09-22 4 views
1

AWS 데이터 파이프 라인을 사용하여 EMR 클러스터에서 스파크 작업을 실행하기위한 플로우를 설정하려고합니다. 우리의 흐름은 "On Demand"일정에서 실행됩니다.AWS 데이터 파이프 라인을 통해 AWS EMR 클러스터에서 여러 병렬 스파크 작업을 실행하는 방법

이 활동의 ​​일부로 파이프 라인의 시작 부분에 EMR 클러스터를 만든 다음 emr 클러스터에서 여러 개의 스파크 작업을 병렬로 실행하려고합니다.

데이터 파이프 라인에서 "주문형"일정으로 병렬 작업을 실행할 수 있습니까?

+0

지정 귀하의 클러스터를 "작업자 그룹"으로 만들고 모든 Spark 액티비티를 실행하십시오. 서로 의존하지 않으면 동시에 시작해야합니다. 그렇다면 YARN (또는 스케줄러)에서 Spark을 구성하여 동시 작업을 가장 효율적으로 처리 할 수 ​​있어야합니다. – user4601931

+0

감사합니다.이 옵션이 작동했습니다. 이 외에도 EMRActivity (모든 활동이 될 수 있음)의 실패시 별도의 활동을 수행 할 수 있습니까? 나는 우리가 통지를 보낼 수있는 것을 볼 수있었습니다. 나는 람다를 통해 나의 통보를 처리 할 수 ​​있고 돌볼 수있다. 그러나 동일한 파이프 라인에서 가능합니다. – Krish

답변

0

당신은 ... 예 기본적으로
https://github.com/ychantit/airflow_aws_utils 당신은 SSH를 사용하여 EMR에 연결하여 작업을 제출하고 자신 이 있지만 datapipeline AWS 사용하지 않을 것 작업의 실행을 감시해야합니다을 확인할 수 있습니다