rdd.saveAsTextFile("s3n://bucket-name/path)
에 $ 폴더 $ 폴더 이름으로 빈 파일을 만드는 등 - [folder-name]_$folder$
은 하둡 파일 시스템과 같은 S3 파일 시스템을 해내 hadoop-aws jar (of org.apache.hadoop)
에 의해 사용이 빈 파일처럼 보인다.스파크 saveAsTextFile은 빈 파일을 작성 - <directory>이 _ S3
그러나 내 응용 프로그램은 수천 개의 파일을 S3에 씁니다. saveAsTextFile
은 주어진 경로에서 (rdd에서) 데이터를 쓰는 폴더를 생성하므로 내 응용 프로그램은 수천 개의 빈 파일 ([directory-name]_$folder$
)을 생성합니다.
rdd.saveAsTextFile
이 빈 파일을 쓰지 못하게 할 방법이 있습니까?
's3a'로 시도했지만' _ $ folder $' 파일. –
barath
아니요. 나는 앞에서 IDE에있는'S3AFileSystem'에 대한 소스를 재검토했다. '$ folder $'접미사는 디렉토리 검사에서 찾았지만 생성 된 적이 없습니다. 그들이 나타나면 s3a가 아닌 다른 일이 그것을합니다. –
사용중인 파일 시스템 구현을 나에게 알려 주실 수 있습니까? 즉'fs.s3a.impl'의 값은'org.apache.hadoop.fs.s3native.NativeS3FileSystem'을 사용하고 있습니다. – barath