2017-11-29 2 views
1

EXTRACT 문서에는 gzipped 파일 (우리가 사용하고있는)에 대한 자동 매직 (awesome) 지원이 있습니다.gzip 파일은 DataLake Analytics에서 여러 AU를 사용합니까?

하지만 하나 이상의 AU를 사용하지 않을 것이라고 가정해야합니까? 내가 올바르게 이해하는 것처럼 파일은 AU를 통해 퍼지기 위해 "분할 가능"해야합니다?

아니면 압축을 풀어서 한 번에 압축을 풀거나 gziped 파일에 어떻게 든 분할 할 수있는 위치를 나타내는 색인이 있습니까?

아니면 아마도 AU와 버텍스 개념을 혼동하고 있습니까?

답변

1

이것은 좋은 질문입니다. :)

일반적으로 파일 형식이 분할 가능한 경우 (예 : 행 크기가 행 크기 제한 (현재 4MB) 미만인 기본적으로 행 지향) 큰 파일은 정점 당 1GB로 분할됩니다.

그러나 GZip 자체는 분할 가능 형식이 아닙니다. 따라서 우리는 압축 해제 중에 GZip 파일을 분할 할 수 없으며 압축 해제 된 파일의 처리를 분할하지도 않습니다 (현재 프레임 워크는이를 제공하지 않습니다). 따라서 GZip 파일의 크기를 4GB로 제한합니다. GZip 파일을 사용하여 수평 확장을 원하면 데이터를 여러 GZip 파일로 분할 한 다음 파일 집합을 사용하여 처리를 수평 확장하는 것이 좋습니다.

+0

빠른 답변을 주신 Micheal에게 감사드립니다. 파일 세트가 gzip 파일인지 자동으로 알 수 있습니까? u-sql이 더 빨리 수행되도록하기 위해 데이터 팩토리에서 압축을 풀고 보관을 위해 압축을 푸는 것이 좋습니다. 입력에 따라 u-SQL을 수정할 필요가 없다면 멋지게 될 것입니다. 이것은 새로운 질문 일 수 있습니다 .... –

+1

그것은 새로운 질문 일 수 있습니다;). 현재 파일 세트에있는 gzip 파일을 조작 할 수 있지만 현재는 gzip으로 압축해야합니다. –

+0

건방진 데이터 팩토리에 unzip 단계를 추가했습니다. (프로와 죄수), 우리의 유스 케이스에 nitro가 추가되었으므로 u-sql에 매력이 생겼습니다. 팁 주셔서 감사합니다! –