0
EMR 작업 호출과 입력 위치가 S3의 파일 일 때 데이터의 mapreduce 처리가 실제로 시작될 때까지 기다리는 시간이 길어졌습니다. 내 질문은, 네이티브 S3 파일 시스템에있는 데이터를 EMR에서 직접 실행하는지 또는 프로비저닝 된 EC2 머신의 HDFS 클러스터 (EMR 클러스터에 있음)로 데이터를 복사하는지 여부입니다.이 경우 많은 양 데이터를 복사하는 시간은?Amazon EMR 프레임 워크는 MapReduce 작업에서 소모되기 전에 S3에서 데이터를 복사합니까?