s3에서 HDFS로 193GB 데이터를 복사하려고합니다. 나는 S3-distcp 및 하둡 distcp에 대해 다음 명령을 실행 해요 : 나는 마스터 노드에서 다음을 실행하고 또한 전송되는 양에 수표를 유지하고있어s3-dist-cp 및 hadoop distcp 작업이 EMR에서 무한 반복됩니다.
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
. 약 1 시간이 지난 후 복사가 끝나면 모든 것이 지워지고 디스크 공간은 클러스터의 4 코어 인스턴스에서 99.8 %로 표시되며 hadoop 작업은 영원히 계속됩니다. 최대한 빨리이 명령어를 실행하는 는
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
이 시간 동안 데이터에 즉시 다음 사본을 인쇄됩니다. 그것은 다시 처음부터 시작됩니다.
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
여기에 누락 된 것이 있습니까? 어떤 도움을 주셔서 감사합니다.
또한 마스터 노드에서 로그 파일을 찾을 수있어서 작업이 실패하고 따라서 루핑되는지 확인할 수 있습니까? 감사합니다