목록

2017-10-06 5 views
0

한다고 가정 우리는 우리는이 파일에 대한 스파크 2에서 데이터 집합을 만든목록

f3.txt, 파일 구조 실시간 \ 임시 \의 f1.txt, f2.txt 아래에 있습니다. 이 파일을 처리 한 후 소스 위치 (realtime \ temp)에서 파일을 삭제해야합니다.

그래서 우리는 데이터 세트를 생성 한 모든 파일의 목록을 원합니다.

고맙습니다.

답변

1

hadoop 파일 시스템 개체를 만들 수 있습니다. 그런 다음 디렉토리에있는 파일 목록. 목록이 있으면 파일을 순차적으로 삭제할 수 있습니다.

import org.apache.hadoop.conf.Configuration 
import org.apache.hadoop.fs.FileSystem 
import org.apache.hadoop.fs.Path 

var hfs = FileSystem.get(new Configuration()) 

    val allFileIterator = hfs.listFiles(new Path("/user/sngrover"), true) 
    while (allFileIterator.hasNext()) { 
    val filePath = allFileIterator.next().getPath 
    hfs.delete(filePath, false) 
}