Amazon MapReduce 입력 분할 및 다운로드

저는 EMR을 처음 접했고 몇 가지 질문을 던졌습니다. 지난 며칠 동안 고민하고 있습니다. 첫 번째는 처리하고자하는 로그가 이미 .gz로 압축되어 있고 이러한 유형의 파일을 emr로 나누어서 하나 이상의 매퍼가 파일에서 작동 할 수 있는지 궁금합니다. 또한 나는 그들이 5 기가 바이트 않는 한 그 입력 파일을 분할되지 않습니다 읽고있다, 내 파일이 너무 큰 그들은 한 인스턴스에 의해 처리됩니다 뜻입니까?Amazon MapReduce 입력 분할 및 다운로드

다른 질문이 상대적으로 어리석은 것처럼 보일 수 있지만 emr + 스트리밍을 사용하고 s3 이외의 입력이 가능합니까? CDN에서 로그를 다운로드 한 다음 s3 버켓에 업로드하여 mapreduce를 실행해야합니다. 바로 지금 내 서버에 다운로드 한 다음 내 서버가 s3에 업로드하고 중간 사용자를 잘라서 s3으로 곧바로 이동하거나 서버에서 입력을 실행하는 방법이 있습니까?

출처

2011-12-07 Brian

이미에 .gz로 압축하고 이러한 형식의 파일이 두 개 이상의 매퍼 파일

아아, 아니, 직선에서 작동 할 수 있도록 EMR에 의해 분할 될 수 있다면 난 궁금 해서요 gzip 파일은 분할 할 수 없습니다. 한 가지 옵션은 로그 파일을보다 자주 롤하는 것입니다. 이 아주 간단한 해결책은 조금 어색하지만 어떤 사람들에게는 효과적입니다. 그들이 5기가바이트하지 않는 한