2017-05-17 6 views
0

내 문제에서 도움이된다면 도움이 될 것입니다.Microsoft Azure의 Data Lake 저장소 계정의 출력 폴더에 파일을 다시 쓰는 동안 파일 이름을 변경하십시오.

내 프로젝트 요구 사항에서 Microsoft Azure (클라우드 기반 플랫폼)의 Data Lake Store에 특정 이름으로 파일을 저장해야합니다. HDInsight 클러스터에서로드 된 파일에 의해 생성 된 데이터 프레임에서 변환 또는 작업을 수행 한 후 특정 폴더에 데이터 프레임을 쓰면 hadoop 형식의 "part-00000-xxxx"라는 이름으로 저장됩니다.

그러나 많은 수의 파일을 가지고 있으므로 각 파일에 대해 만들어진 폴더 안에 들어가서 매번 내 요구 사항과 동일한 이름을 바꿀 수 없습니다.

그래서, 제발 나를 도울 수 있습니까?

참고 : 파일을 저장 한 후에 파일을 다른 폴더에 복사 할 수 있으며 복사하는 동안 원하는 이름을 지정할 수 있습니다.하지만이 솔루션은 필요하지 않습니다. 일단 파일을 처리 한 후 내 저장소 (Data Lake Store)에 다시 쓰고 싶으면 파일에 특정 이름을 제공하고 싶습니다.

답변

0

파일 이름의 패턴을 제어하기 위해 MultipleOutputFormat 클래스의 서브 클래스를 제공 할 수 있지만, Streaming API를 사용하여 OutputFormats를 쓸 수 없기 때문에 Java로 작성해야합니다.

다른 옵션은 Azure Storage 클라이언트를 사용하여 병합하고 작업이 끝나면 출력 파일의 이름을 바꿀 수 있습니다.