distcp

    1

    1답변

    필자는 x 개의 파일 만 distcp 할 필요가 있습니다. 할 방법을 찾을 수 없습니다. 하나의 아이디어는 임시 디렉토리에 그것을 복사하는 것입니다 다음 distcp 디렉토리. 완료되면 해당 임시 디렉터리를 삭제할 수 있습니다. 개별 distcp 명령 (각 파일에 대해). 이것은 고통 스러울 수 있습니다. 쉼표 분리가 허용되는지 확실하지 않습니다. 아이디어

    1

    1답변

    내가 클러스터를 dev에 내 생산 클러스터에서 일부 HDFS 파일을 이동해야 을 보존하여 다른 클러스터에 하나 개의 클러스터에서 HDFS 파일을 복사합니다. 나는 파일 수정 시간을 기준으로 클러스터를 dev에 위해 이동 한 후 HDFS 파일에 일부 작업을 테스트해야합니다. dev에 테스트 할 다른 날짜의 파일이 필요합니다. 내가 DISTCP와 함께 일을 시

    0

    1답변

    내 행동 start_fair_usage는 상태 좋아요로 끝나는하지만 test_copy 반환 /user/comverse/data/${1}_B에서 Main class [org.apache.oozie.action.hadoop.DistcpMain], main() threw exception, null 나는의 일부를 다른 파일을 많이 가지고 이 파일을 ${NAM

    0

    1답변

    distcp를 사용하여 파일 목록 (1KB 이상 파일)을 hdfs에 복사하고 싶습니다. 이미 로컬 디렉토리에 파일 목록을 저장 했으므로 -f를 사용하여 모든 파일을 복사 할 수 있습니까? 그렇다면 파일 목록 파일에서 유지해야하는 형식은 무엇입니까? 아니면 더 좋은 방법이 있습니까?

    0

    1답변

    distcp 작업을 수행하는 작업 흐름이 있습니다. 워크 플로우 파일은 다음과 같습니다 : <workflow-app xmlns="uri:oozie:workflow:0.3" name="distcp-wf"> <start to="distcp-node"/> <action name="distcp-node"> <distcp xmlns="uri:oozie:

    0

    1답변

    distcp 작업 실행 다음 문제가 발생했습니다. 거의 모든 맵 작업은 성공적으로 표시되지만 Container Killed라고 표시됩니다. 지도 작업에 대한 로그는 말한다 온라인 인터페이스에 : 진행 100.00 상태 를 성공했지만 주에서 거의 모든 시도 (~ 200)에 ApplicationMaster에 의해 살해 컨테이너에 대해 말한다. 컨테이너가 App

    0

    2답변

    내가 우리 CDH의 하둡 클러스터 우리는 를 실행하는 EMR 클러스터가) 2 S3에 백업 할 1) 내 문제를 상태로 S3하기 3) em3 클러스터에서 s3distcp를 실행하려고합니다. src를 cd3 원격 클러스터 및 대상의 hdfs URL로 제공합니다. 가 다음 오류 갖는 org.apache.hadoop.ipc.RemoteException (org.ap

    0

    2답변

    PROD에서 UAT (hadoop 클러스터)로 데이터/파일을 복사해야하는 상황이 있습니다. 그 때문에 지금은 'distcp'을 사용하고 있습니다. 그러나 그것은 영원히 가져 가고있다. distcp가 map-reduce를 사용하기 때문에 spark를 사용하여 프로세스를 더 빠르게 만들 수있는 방법이 있습니까? 우리가 실행 엔진을 'TEZ' (대체하려면 map

    0

    1답변

    s3 버킷에 데이터를 쓰는 sqoop 작업이 있습니다. 명령 줄에서이 작업을 실행하면 s3 파일이 암호화됩니다. 그러나 oozie 워크 플로를 사용하여 sqoop 작업을 실행하기 위해 동일한 jar 파일을 사용하는 경우 데이터를 s3으로 푸시하지만 암호화가 발생하지 않습니다. 다음은 내 oozie 워크 플로입니다. <java> <job-track

    0

    1답변

    HDFS에 넣으려고하는 거대한 양의 S3files 버킷이 있습니다. 관련된 파일의 양을 감안할 때 필자가 선호하는 솔루션은 '분산 복사본'을 사용하는 것입니다. 그러나 어떤 이유로 든 hadoop distcp로 나의 Amazon S3 자격증을 가질 수 없습니다. 내가 사용하는 명령은 다음과 같습니다. hadoop distcp -update s3a://[bu