2017-11-13 7 views
1

.NET API의 Append 메서드를 사용하여 만든 Azure Data Lake Store에 여러 개의 큰 CSV 파일이 있습니다. 최근 성능상의 이유로 ConcurrentAppend으로 전환했습니다. ConcurrentAppend와 Append는 서로 바꿔서 사용할 수 없으므로, 스위치는 ConcurrentAppend가 Append를 사용하여 생성 된 파일을 절대 조회하지 못하도록 파일의 새 폴더 구조를 만들어야했습니다.Append 및 ConcurrentAppend로 만든 ADLS 파일에 연결

그러나 다운 스트림 응용 프로그램은 전환 전후의 모든 데이터를로드해야합니다. 응용 프로그램을 변경하는 대신 PowerShell SDK Join-AzureRmDataLakeStoreItem cmdlet를 사용하여 파일을 조인하려고했지만이 방법으로 조인 된 파일을 조인 후에 ConcurrentAppend에서 쓸 수 있는지 여부를 설명서에 명시하지 않았습니다. 나는 우리가 두 가지 방법에 의해 생성 된 파일을 가입하려고하기 때문에 우리가 문제에 직면하게 될 것이다 의심 (어쩌면 조인 할도 불가능?)

그래서 제 질문은 다음과 같습니다 :

  • 수 ConcurrentAppend을 Append?를 사용하여 하나 이상의 소스 파일이 생성 되었더라도 Join-AzureRmDataLakeStoreItem을 사용하여 조인 된 파일에 쓰기?
  • 그렇지 않은 경우 U-SQL을 사용하여 파일을 결합하지만 ConcurrentAppend는 U-SQL 작업에서 출력 된 파일에 쓸 수 있습니까?
  • 그렇지 않은 경우 로컬 API (예 : .NET API 사용)를 실행하는 것 외에 다른 옵션이 있습니까? 예를 들어 모든 파일을 읽고 ConcurrentAppend 만 사용하여 호수에 새 파일 세트를 작성 하시겠습니까?

우리는 가능한 한 PowerShell cmdlet을 사용하는 것을 선호하며 마지막 옵션은 사용하지 않으려 고합니다.

답변

1

현재 결합 조작 후 파일에 대해 추가 조작을 실행할 수 없습니다. 현재이 제한을 없애기위한 기능을 개발 중입니다. 그러나 현재 파일을 연결 한 후에는 추가 기능이 작동하지 않습니다.