저는 EMR을 처음 접했고 몇 가지 질문을 던졌습니다. 지난 며칠 동안 고민하고 있습니다. 첫 번째는 처리하고자하는 로그가 이미 .gz로 압축되어 있고 이러한 유형의 파일을 emr로 나누어서 하나 이상의 매퍼가 파일에서 작동 할 수 있는지 궁금합니다. 또한 나는 그들이 5 기가 바이트 않는 한 그 입력 파일을 분할되지 않습니다 읽고있다, 내 파일이 너무 큰 그들은 한 인스턴스에 의해 처리됩니다 뜻입니까?Amazon MapReduce 입력 분할 및 다운로드
다른 질문이 상대적으로 어리석은 것처럼 보일 수 있지만 emr + 스트리밍을 사용하고 s3 이외의 입력이 가능합니까? CDN에서 로그를 다운로드 한 다음 s3 버켓에 업로드하여 mapreduce를 실행해야합니다. 바로 지금 내 서버에 다운로드 한 다음 내 서버가 s3에 업로드하고 중간 사용자를 잘라서 s3으로 곧바로 이동하거나 서버에서 입력을 실행하는 방법이 있습니까?