Azure 데이터 호수 저장소 - JSON을 CSV로 변환

Azure 데이터 호수 저장소에 JSON 파일 크기가 약 100GB입니다. 우리는 그들을 CSV 파일로 변환하고 같은 푸른 하늘 호수 저장소의 다른 폴더에 저장해야합니다. 옵션은 무엇입니까?Azure 데이터 호수 저장소 - JSON을 CSV로 변환

출처

2017-03-21 venkatesh sivalingam

몇 가지 선택 사항이 있습니다. 이것은 일반적으로 간단한 두 단계 프로세스입니다. 추출 및 출력입니다.

A. 이렇게하려면 ADLA/U-SQL 작업을 실행할 수 있습니다. 여기에 또 다른 선택은 데이터를 변환하는 HDInsight 클러스터를 만드는 것입니다 U-SQL https://github.com/Azure/usql/tree/master/Examples/DataFormats/Microsoft.Analytics.Samples.Formats

B. 에서 JSON 추출기의 예입니다. 원하는 응용 프로그램을 사용할 수 있습니다. 다음은 PIG에서이 작업을 수행하는 사람의 예입니다. https://acadgild.com/blog/converting-json-into-csv-using-pig/

출처

2017-03-21 16:16:24

나는 이것을 Azure Data Factory와 함께 시도했으며 제로 코딩과 함께 곧바로 사용했습니다. 소스와 싱크 모두 ADLS.Nothing이 단순한 파이프 라인에서 변경되었습니다 일대일 매핑. 우리와 그 이하의 배치 작업이 성능에 대한 빠른 통계이기 때문에 우리는 성능에 관심이 없었습니다.

> Data Read: 42.68 GB Data Written: 12.97 GB Data volume: 42.68 GB Rows: 
> 54520950 Throughput: 3.97 MB/s Billed duration for data movement: 
> 03:03:41

출처

2017-03-26 17:34:58

이 페이지에 도착한 다른 사람들에게 유용 할 수 있으므로 단계에 대한 세부 정보를 게시하면 좋을 것입니다. 어쨌든 당신이 사용한 소스와 싱크대에 대한 세부 사항이나 파이프 라인에서해야 할 특별한 것이 있었습니까? [최근 예제] (http://stackoverflow.com/questions/39894991/copy-from-onprem-sql-server-to-documentdb-using-custom)에서와 같이 입력/출력 데이터 세트에 대한 JSON을 표시 할 수도 있습니다. adf 파이프 라인). 또한 ADF가 볼륨에 어떻게 대처했는지 여기에 흥미가 있습니다. 다시 말하지만 특별한 것이 필요 했습니까? – wBob

Azure 데이터 호수 저장소 - JSON을 CSV로 변환

답변

관련 문제