S3 버킷을 입력 소스로 사용하여 새 EMR 작업을 만들 때 S3에서 노드의 HDFS로 데이터가 자동으로 복사됩니까? 또는 데이터가 S3에만 남아 있고 맵 축소 작업에 필요할 때 읽을 수 있습니까?S3에서 AWS EMR로드
나는 인상을 얻는다. 그러나 데이터가 S3에 저장되고 프로비저닝 된 EC2 인스턴스에서 처리가 수행되면 맵 축소의 기본 원칙에 어긋나지 않습니다 : 데이터 로컬 처리? 기존의 시스템과 달리 처리를 수행하는 곳으로 데이터를 이동하십시오.
1PB와 같이 합리적인 대형 데이터 세트가 주어진 경우이 접근법의 상대적 의미는 무엇입니까? 클러스터 시작에 오래 걸립니까?
s3bfs (블록 스토리지의 파일 시스템)에 의해 AWS 권장되지의 사용 : http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-file-systems.html – Guy
오 .. 알겠습니다. 업데이트에 대한 감사합니다. – Tariq