FTP 서버 (F [ftp]), Linux 상자 (S [독립 실행 형]) 및 hadoop 클러스터 (C [클러스터])가 있습니다. 현재 파일 흐름은 F-> S-> C입니다. 내가 S. 현재의 흐름을 건너 뜀으로써 성능을 향상시키기 위해 노력하고 있습니다 : wget ftp://user:[email protected]/absolute_path_to_file
"DistCp"명령을 처리하여 My Cluster1을 Cluster2로 변환하는 중요한 파일을 거의 이동하지 않습니다. 이 중요한 파일들은 전에 Blocksize 64MB와 함께 존재했습니다. 그리고 이제 Cluster2로 옮겼습니다. [128MB 블록 크기를 가졌습니다.] DistCp 이동 한 후, 어떻게이 중요한 파일 성능이 Cluster2..perfo
cdh3 및 cdh4에서 파일을 복사하기 위해 hcp 프로토콜을 통해 distcp를 사용하고 싶습니다. 명령은 같다 : hadoop distcp hftp://cluster1:50070/folder1 hdfs://cluster2/folder2 그러나 작업으로 인해 위의 예외로 인해 폴더 1에서 INFO org.apache.hadoop.tools.DistCp:
S3에서 hdfs 의 파일 목록을 s3distcp를 사용하는 전체 폴더 대신 복사하는 방법이 있습니까? 이것은 srcPattern가 작동하지 않는 경우입니다. 다른 이름을 가진 s3 폴더에 여러 개의 파일이 있습니다. 특정 파일 만 hdfs 디렉토리에 복사하고 싶습니다. s3distcp에 여러 소스 파일 경로를 지정하는 방법을 찾지 못했습니다. 내가 현재