1
AWS 데이터 파이프 라인을 사용하여 EMR 클러스터에서 스파크 작업을 실행하기위한 플로우를 설정하려고합니다. 우리의 흐름은 "On Demand"일정에서 실행됩니다.AWS 데이터 파이프 라인을 통해 AWS EMR 클러스터에서 여러 병렬 스파크 작업을 실행하는 방법
이 활동의 일부로 파이프 라인의 시작 부분에 EMR 클러스터를 만든 다음 emr 클러스터에서 여러 개의 스파크 작업을 병렬로 실행하려고합니다.
데이터 파이프 라인에서 "주문형"일정으로 병렬 작업을 실행할 수 있습니까?
지정 귀하의 클러스터를 "작업자 그룹"으로 만들고 모든 Spark 액티비티를 실행하십시오. 서로 의존하지 않으면 동시에 시작해야합니다. 그렇다면 YARN (또는 스케줄러)에서 Spark을 구성하여 동시 작업을 가장 효율적으로 처리 할 수 있어야합니다. – user4601931
감사합니다.이 옵션이 작동했습니다. 이 외에도 EMRActivity (모든 활동이 될 수 있음)의 실패시 별도의 활동을 수행 할 수 있습니까? 나는 우리가 통지를 보낼 수있는 것을 볼 수있었습니다. 나는 람다를 통해 나의 통보를 처리 할 수 있고 돌볼 수있다. 그러나 동일한 파이프 라인에서 가능합니다. – Krish