0
나는 다음과 같은 방법을 통해 EMR의 HDFS의 디렉토리에있는 모든 파일을 나열하려합니다 :목록 파일 스칼라 EMR HDFS (CSV 파일 누락)
val directory = new File(directoryPath)
val fileStatusListIterator: RemoteIterator[LocatedFileStatus] = FileUtils.fs.listFiles(new Path(directoryPath), true)
while (fileStatusListIterator.hasNext) {
val fileStatus = fileStatusListIterator.next
if (fileStatus.isFile) {
log.info(s"Iterator File Path: ${fileStatus.getPath}")
}
}
내 문제 :이 CSV 파일을 제외하고 모든 것을 나열됩니다.
"csv 파일"은 실제로 _directories_ 아닌가요? 일부 분산 처리 엔진 (MapReduce/Spark)에 의해 작성된 경우, 내부에 "부분"파일이있는 디렉토리 일 수 있으며 코드가 디렉토리를 건너 뜁니다. –
조건을 제거했으며 CSV 파일이없는 동일한 결과를 제거했습니다. –