FTP 서버 (F [ftp]), Linux 상자 (S [독립 실행 형]) 및 hadoop 클러스터 (C [클러스터])가 있습니다. 현재 파일 흐름은 F-> S-> C입니다. 내가 S.FTP에서 HDFS로 파일을 복사하지 못했습니다.
현재의 흐름을 건너 뜀으로써 성능을 향상시키기 위해 노력하고 있습니다 :
wget ftp://user:[email protected]/absolute_path_to_file
hadoop fs -copyFromLocal path_to_file path_in_hdfs
내가 시도 :
hadoop fs -cp ftp://user:[email protected]/absolute_path_to_file path_in_hdfs
과 :
hadoop distcp ftp://user:[email protected]/absolute_path_to_file path_in_hdfs
모두 중단됩니다. distcp 중 하나가 작업이되면 시간 초과로 인해 종료됩니다. 로그 (hadoop 작업 로그)는 시간 초과로 인해 종료되었다고 말했습니다. 나는 C 노드의 ftp에서 wget하려고 시도했다. 그 이유와 힌트는 무엇일까요? 소스 파일이 로컬 파일 시스템의 파일을 그대로
최근 결과 : 1. distcp 프로세스는 100 % 맵을 처리하고 0 %를 감소 시키지만 마지막으로 시간 초과에 의해 맵이 인쇄됩니다. 2. distcp -log/hdfspath는 어떤 이유로 비어 있습니다. 3. 공용 저장소에서 동일한 클러스터에 대해 Mozilla를 fs -cp 및 distcp 할 수 있습니다. 나는 조사 중이다. 1. 클러스터의 모든 노드가 복사를 시도하는 FTP에 액세스 할 수 있는지 여부. 2. FTP 서버의 알려진 문제점을 점검하십시오. – Denis
더 많은 정보, fs -put 및 distcp는 올바른 크기의 path_in_hdfs/filename._COPYING_ 파일을 만듭니다. – Denis
추가 정보 : 서버는 SunOs 5.10에서 실행되는 tftpd입니다. – Denis