2017-04-19 14 views
0

을 사용 할 수 있는지 :아마존 EMR : 인스턴스에 EBS 볼륨을 연결하면서 어떻게이 책은 내가 추가 볼륨에 대한 설정을 내 mrjob.conf에서

Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.SizeInGB: 250 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumeSpecification.VolumeType: gp2 
    Instances.InstanceGroups.member.2.EbsConfiguration.EbsBlockDeviceConfigs.member.1.VolumesPerInstance: 1 

내가 볼 수있는 클러스터를 실행할 때 각 인스턴스에 대해 저는 10GB와 250GB 볼륨을 가지고 있습니다. 그러나 EMR은 250GB 저장 용량을 사용하여 데이터를 보존합니까? 작동시키지 않는 경우?

+0

EMR은 가능한 한 EMRFS를 실제로 사용하는 것이 좋습니다. 즉, S3를 HDFS 마운트 지점으로 직접 마운트하십시오. 귀하의 경우, 네, HDFS를 쓰기위한 공간으로 250GB 하드 드라이브를 자동으로 선택합니다. – Henry

+0

EMR은 250GB 저장 용량을 사용하여 데이터를 보존합니까? , 어떤 종류의 데이터와 누가 데이터를 생성합니까? –

답변

1

예, 클러스터 시작시 EMR API로 EBS 볼륨을 제공하면 EMR이 HDFS 용 EBS 볼륨을 마운트, 형식 지정 및 사용합니다.

/mnt1 /,/mnt2/etc와 같은 지점과 hdfs-site.xml에 포함 된 마운트 지점에 마운트되는 것을 볼 수 있습니다. HDFS에 대한 모든 기록은 hdfs-site.xml에 설정된 정책에 따라 이러한 마운트 중 자동으로로드 균형을 조정합니다. 현재 정책은 모든 남은 공간이 나머지 볼륨과 같아 질 때까지 가장 큰 볼륨으로 이동 한 다음 라운드 로빈을 사용하기 시작합니다.

마운트 지점이 모든 것이 사용되지 않을 수도 있습니다. 예를 들어 EMR은 실 마운트 로그를 사용하여 로컬 디스크에 로그를 저장하지 않을 수 있습니다. (나중에 구성 할 수 있습니다)