2017-01-13 8 views
1

누군가 도와 드릴 수 있습니까? 나는 이것을 정확하게하려고 노력하고있다. AWS 콘솔에서 데이터 파이프 라인 구성 내에서 Spark 설치로 EMR 환경을 만들 수 없습니다. 'EMR 클러스터에서 작업 실행'을 선택하면 EMR 클러스터는 항상 스파크가 아닌 기본적으로 돼지 및 하이브로 만들어집니다.AWS 데이터 파이프 라인 구성 EMR 클러스터 실행 스파크

나는 여기에 말했듯이 내가 부트 스트랩 작업으로 스파크를 선택할 수 있다는 것을 이해하지만, 내가 할 때이 메시지가 : 이름 : xxx.xxxxxxx.processing.dp 템플릿을 사용하여
빌드 : 탄성에 실행 작업을 맵리 듀스 클러스터

매개 변수 : EC2 키 쌍 (선택 사항) : xxx_xxxxxxx_emr_key EMR 단계 (들) :
이 --deploy 모드 클러스터 (S3)를 스파크 제출 //xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3 : //xxx.xxxxxxx.scripts.bucket/

EMR 릴리스 레이블 : emr-4.3.0 부트 스트랩 작업 (선택 사항) : s3 : //support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI 비트는 어디에 있습니까? 그리고 위의 모양이 맞습니까? 리소스를 만들 수 없습니다 @ EmrClusterObj_2017-01-13T09에 대한 : 인해 : 07 : 제공된 부트 스트랩 동작 (들) : 00 내가 데이터 파이프 라인을 활성화 할 때 여기에

은 내가 오류의 '부트 스트랩 - action.6255c495- 578a-441a-9d05-d03981fc460d '는'emr-4.3.0 '릴리스에서 지원되지 않습니다. (서비스 : AmazonElasticMapReduce, 상태 코드 : 400, 오류 코드 : ValidationException, 요청 ID : b1b81565-d96e-11e6-bbd2-33fb57aa2526)

EMR의 최신 버전을 지정하면 Spark가 기본값으로 설치됩니까?

많은 도움을 주셔서 감사합니다. 감사합니다.

답변

2

그 install-spark 부트 스트랩 작업은 3.x AMI 버전에만 해당됩니다. releaseLabel (emr-4.x 이상)을 사용하는 경우 설치할 응용 프로그램이 다른 방식으로 지정됩니다.

데이터 파이프 라인을 사용하지는 않았지만 파이프 라인을 만들 때 하단의 "편집자에서 편집"을 클릭하면 EmrCluster 노드를 클릭하고 " 선택적 필드 추가 ... "드롭 다운. Spark를 추가 할 수 있습니다.

+0

이것에 대해 많은 감사를드립니다. 초기 문제가 해결되었습니다. 이제 나의 클러스터는 Spark로 시작합니다. – MarkAUK123

+0

하지만 지금 내 Spark 단계가 올바르게 실행되지 않습니다. 실행될 때 '다운로드 실패'오류가 발생하고 's3 + 로컬 파일 만 지원됩니다'... 여기에 어떤 아이디어가 있습니까? – MarkAUK123