내가 우리 CDH의 하둡 클러스터 우리는
를 실행하는 EMR 클러스터가)
2 S3에 백업 할
1) 내 문제를 상태로 S3하기 3) em3 클러스터에서 s3distcp를 실행하려고합니다. src를 cd3 원격 클러스터 및 대상의 hdfs URL로 제공합니다.권한 문제는
가 다음 오류 갖는 org.apache.hadoop.ipc.RemoteException (org.apache.hadoop.security.AccessControlException) : 에 의한 권한이 거부 : 사용 = mapred 액세스 = AD_EXECUTE RE, 아이 노드 = "/ TMP/하둡 - mapred/mapred/준비 "다음
이 행할 수)
1
http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html 여기 문서를 거쳐 내 질문입니다. s3distcp 문서에서 hdfs url을 얻을 수 있음을 알 수 있습니다. 하지만 외부 클러스터의 경우 어떻게 작동하는지에 대한 문서는 찾을 수 없습니다.
2) 준비 디렉토리 (s3distcp가 s3에 복사하기 전에이 디렉토리에 데이터를 복사한다고 언급 했음)를 알고 싶습니다. 설명서에 언급 된 내용이 원격 클러스터 또는 emr 클러스터에 생성되었습니다.