Amazon EMR 프레임 워크는 MapReduce 작업에서 소모되기 전에 S3에서 데이터를 복사합니까?

EMR 작업 호출과 입력 위치가 S3의 파일 일 때 데이터의 mapreduce 처리가 실제로 시작될 때까지 기다리는 시간이 길어졌습니다. 내 질문은, 네이티브 S3 파일 시스템에있는 데이터를 EMR에서 직접 실행하는지 또는 프로비저닝 된 EC2 머신의 HDFS 클러스터 (EMR 클러스터에 있음)로 데이터를 복사하는지 여부입니다.이 경우 많은 양 데이터를 복사하는 시간은?Amazon EMR 프레임 워크는 MapReduce 작업에서 소모되기 전에 S3에서 데이터를 복사합니까?

출처

2013-10-15 Abhishek Jain

S3는 저장 메커니즘이므로 확실히 데이터를 처리 할 수 없습니다. 따라서 MR 작업에서 처리하기 전에 데이터를 EC2 노드에 복사해야합니다.

출처

2013-10-15 06:17:11

Amazon EMR 프레임 워크는 MapReduce 작업에서 소모되기 전에 S3에서 데이터를 복사합니까?

답변

관련 문제