2017-12-24 20 views
0

저는 5GB가 넘는 매우 큰 파일을 분석하기 위해 독립형 모드로 스파크를 내 시스템에 설치하고 있습니다. 먼저 FTP에서이 파일을 내 로컬 e.g c:\spark\analysis\bigfile.txt에 복사해야합니다. 분석을 위해 스파크로 파일을로드 할 수 있습니다.스파크 분석 전에 FTP에서 큰 텍스트 파일 읽기

제 질문은 어떻게 메모리에서 벗어나지 않고 효율적으로 큰 파일을 복사 할 수 있습니까? 스파크에서 할 수 있습니까? 카프카와 같은 스트리밍 라이브러리를 사용해야합니까?

내가 스파크 분석을 완료 한 후 FTP 서버에 큰 파일을 작성해야하는 것과 같은 방식입니다. 그것은 비록 조금 느린 것

cat bigfile.txt | ssh [email protected] 'hdfs dfs -put - /pathTo/hdfs'

하지만 3백기가바이트 파일을 나를 위해 일한 :

+0

[아파치 스파크에서 원격 위치 (FTP)에서 csv 파일 읽기] (https://stackoverflow.com/q/34479895/6910411) – user6910411

답변

0

당신은 Bluezone를 사용하여 간단한 쉘 명령 또는 다른 에지 노드 접속 단자 에뮬레이터를 사용할 수 있습니다.

참고 : 파일이 Hadoop이 설치되지 않은 서버에 있었기 때문에이 작업을 수행했습니다. |

인용문

wget을 ftp://user:[email protected]/your_file : 서버가 하둡 후 설치되어있는 경우, 당신은 단순히 표준 입력을 통해 hdfs dfs -put

0

파이프를 시도 할 수 있습니다 하둡 FS 저것 집어 넣어은 - HDFS는 표준 입력에서 읽을 넣어 알 -

인용문

싱글은 path_in_hdfs.