0
나는지도 용 파이썬 스크립트로 스트리밍 작업을 실행 중입니다. boto 라이브러리로 작성한 작업 흐름.ElasticMapReduce 스트리밍 압축 출력
gzip 입력 파일을 사용하고 있습니다. 그래도 gzip 출력 파일을 만들 수 있습니까?
나는지도 용 파이썬 스크립트로 스트리밍 작업을 실행 중입니다. boto 라이브러리로 작성한 작업 흐름.ElasticMapReduce 스트리밍 압축 출력
gzip 입력 파일을 사용하고 있습니다. 그래도 gzip 출력 파일을 만들 수 있습니까?
java를 사용하여 gzip 파일을 처리하고 gzip 압축으로 출력을 생성합니다. 아래 코드를 사용합니다.
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
FileOutputFormat.setOutputPath(job, output path));
희망하는 API/코드는 Python으로 제공됩니다.
생성 된 출력으로 gzip 파일을 생성 할 수 있습니다. '-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'을 스트리밍 작업의 옵션으로 전달하십시오.