2016-12-27 4 views
2

나는 각 행에 고객 정보와 상점 ID가 포함 된 매우 큰 CSV를 거래 정보와 함께 가지고 있습니다. 현재 테스트 파일은 약 40GB (약 2 일 소요)이므로 선택 쿼리의 합리적인 반환 시간은 파티셔닝이 절대적으로 필요합니다.U-SQL 및 파일의 특정 필드만을 사용하여 큰 파일을 파일/디렉토리로 분할하는 방법은 무엇입니까?

내 질문은 : 파일을 받으면 여러 저장소의 데이터가 포함되어 있습니다. "가상 열"기능을 사용하여이 파일을 각각의 디렉토리 구조로 분리하고 싶습니다. 그 구조는 "/Data/{CustomerId}/{StoreID}/file.csv"입니다.

아직 OUTPUT 문을 사용하지 않았습니다. 명령문 사용하여이었다

Bad request. Invalid pathname. Cosmos Path: adl://<obfuscated>.azuredatalakestore.net/Data/{0}/{1}/68cde242-60e3-4034-b3a2-1e14a5f7343d 

사람이 물건의 같은 종류의 시도했습니다 :

// Output to file 
OUTPUT @dt 
TO @"/Data/{CustomerNumber}/{StoreNumber}/PosData.csv" 
USING Outputters.Csv(); 

그것은 다음과 같은 오류를 준다? 필자는 필드에서 출력 경로를 연결하려고했으나 아무 것도하지 않았습니다. 두 ID 및 필터 전체 데이터 집합을 걸리는 함수 (UDF)로 그것을 수행하는 생각,하지만 그것은 매우 비효율적 인 보인다.

미리 읽기/응답 해 주셔서 감사합니다!

답변

2

은 (여기에 푸른 데이터 호수 팀)

현재 U-SQL 스크립트의 모든 파일 출력이 컴파일시에 이해되어야 함을 요구한다. 즉, 입력 파일을 기반으로 출력 파일을 만들 수 없습니다. 데이터를 기반으로

동적 출력은 우리가 적극적으로 동적 출력 기능을 사용할 수있을 때까지 한편 2017

언젠가 이후 릴리스를 위해 노력하고 뭔가있다, 패턴은 두 개의 스크립트

를 사용하여 필요 원하는 것을 달성하기

첫 번째 스크립트는 GROUP BY를 사용하여 CustomerNumber와 StoreNumber의 고유 한 조합을 모두 식별하고이를 파일에 기록합니다.

그런 다음 스크립트 또는 우리의 SDK를 사용하여 작성 도구의 사용을 통해, 이전 출력 파일을 다운로드 한 다음 프로그램 CUSTOMERNUMBER 및 StoreNumber

+0

완벽한 각 쌍에 대한 명시 적 OUTPUT 문을 갖는 제 2 U-SQL 스크립트를 만들 ! 답장을 보내 주셔서 감사합니다. (나는 실제로 팀으로부터 청력이 약간 흐트러집니다!) –

+0

Saveen의 답변에 추가하려면 : 기능 요청은 https://feedback.azure.com/forums/327234-data-lake/suggestions/10550388-support에서 추적됩니다. -dynamic-output-file-names-in-adla. 해당 기능이 개발 중이더라도 투표를 추가하십시오. –