저는 5GB가 넘는 매우 큰 파일을 분석하기 위해 독립형 모드로 스파크를 내 시스템에 설치하고 있습니다. 먼저 FTP에서이 파일을 내 로컬 e.g c:\spark\analysis\bigfile.txt
에 복사해야합니다. 분석을 위해 스파크로 파일을로드 할 수 있습니다.스파크 분석 전에 FTP에서 큰 텍스트 파일 읽기
제 질문은 어떻게 메모리에서 벗어나지 않고 효율적으로 큰 파일을 복사 할 수 있습니까? 스파크에서 할 수 있습니까? 카프카와 같은 스트리밍 라이브러리를 사용해야합니까?
내가 스파크 분석을 완료 한 후 FTP 서버에 큰 파일을 작성해야하는 것과 같은 방식입니다. 그것은 비록 조금 느린 것
cat bigfile.txt | ssh [email protected] 'hdfs dfs -put - /pathTo/hdfs'
하지만 3백기가바이트 파일을 나를 위해 일한 :
[아파치 스파크에서 원격 위치 (FTP)에서 csv 파일 읽기] (https://stackoverflow.com/q/34479895/6910411) – user6910411