HDFS에 2 개의 파일과 1 개의 디렉토리가 있습니다.s3distcp 단일 명령으로 HDFS에서 S3으로 파일 및 디렉토리 복사
-rw-R - 1 r-- 사용 하둡 하둡 11,194,859 2017년 5월 5일 19시 53분 HDFS : ///outputfiles/abc_output.txt drwxr
-XR-X - 하둡 하둡 0 2017-05- 05 19시 28분 HDFS : /// outputfiles/sample_directory
-rw-R - r--로 1 하둡 하둡 68507436 2017년 5월 5일 19시 55분 HDFS :
I ///outputfiles/sample_output.txt 한 명령으로 HDFS에서 gzip 형식의 abc_output.txt 및 sample_directory를 S3에 복사하려고합니다. S3에 파일을 결합하지 않으려합니다. sample_directory.gzip abc_output.txt.gzip
나는 다음과 같은 시도 :
내 S3 버킷에는 다음이 포함되어야
S3 - 거리-CP --s3Endpoint = s3.amazonaws.com - -src = hdfs : /// outputfiles/--dest = s3 : // bucket-name/outputfiles/--outputCodec = gzip
그러나 소스에서 대상으로 모든 파일과 폴더를 복사합니다. Deduce the HDFS path at runtime on EMR 참조함으로써
는, I는 아래의 명령을 시도 :
S3-CP-DIST = --s3Endpoint s3.amazonaws.com --src = HDFS : /// outputfiles/S3 = --dest : // bucket-name/outputfiles/--srcPattern =. * abc_output.txt. sample_directory. --outputCodec = gzip하지만 실패했습니다.