2011-12-07 2 views
1

저는 EMR을 처음 접했고 몇 가지 질문을 던졌습니다. 지난 며칠 동안 고민하고 있습니다. 첫 번째는 처리하고자하는 로그가 이미 .gz로 압축되어 있고 이러한 유형의 파일을 emr로 나누어서 하나 이상의 매퍼가 파일에서 작동 할 수 있는지 궁금합니다. 또한 나는 그들이 5 기가 바이트 않는 한 그 입력 파일을 분할되지 않습니다 읽고있다, 내 파일이 너무 큰 그들은 한 인스턴스에 의해 처리됩니다 뜻입니까?Amazon MapReduce 입력 분할 및 다운로드

다른 질문이 상대적으로 어리석은 것처럼 보일 수 있지만 emr + 스트리밍을 사용하고 s3 이외의 입력이 가능합니까? CDN에서 로그를 다운로드 한 다음 s3 버켓에 업로드하여 mapreduce를 실행해야합니다. 바로 지금 내 서버에 다운로드 한 다음 내 서버가 s3에 업로드하고 중간 사용자를 잘라서 s3으로 곧바로 이동하거나 서버에서 입력을 실행하는 방법이 있습니까?

답변

3

이미에 .gz로 압축하고 이러한 형식의 파일이 두 개 이상의 매퍼 파일

아아, 아니, 직선에서 작동 할 수 있도록 EMR에 의해 분할 될 수 있다면 난 궁금 해서요 gzip 파일은 분할 할 수 없습니다. 한 가지 옵션은 로그 파일을보다 자주 롤하는 것입니다. 이 아주 간단한 해결책은 조금 어색하지만 어떤 사람들에게는 효과적입니다. 그들이 5기가바이트하지 않는 한

또한 나는이 확실히 경우가 아니라, 입력 파일이 분할되지 않습니다

을 읽고있다. 파일을 분할 할 수있는 경우 분할 방법에 대한 많은 옵션이 있습니다 (예 : mapred.max.split.size). 사용할 수있는 옵션에 대한 설명이 [1] 인 것으로 나타났습니다.

emr + 스트리밍을 사용할 수 있으며 그 밖에도 s3 이외의 입력이 가능합니까?

예. 탄성 맵리 듀스는 이제 VPC 그래서 당신은 당신의 CDN [2]

[1] http://www.scribd.com/doc/23046928/Hadoop-Performance-Tuning

[2] http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_VPC.html?r=146

에 직접 연결할 수 있습니다 지원