2017-12-15 16 views
1

을 만들면 s3-dist-cp 도구를 사용하여 마루 파일 (병합 압축)을 병합 할 수 있는지 궁금합니다. "--groupBy"및 "--targetSize"옵션을 사용하여 시도 했으므로 작은 파일을 더 큰 파일로 병합했습니다. 그러나 나는 Spark 나 AWS Athena에서 그것들을 읽을 수 없다. 어떤 도움에 감사드립니다s3-dist-cp를 사용하여 마루 파일

HIVE_CURSOR_ERROR: Expected 246379 values in column chunk at s3://tbw-analytics/parquet/auctions/region=us/year=2017/month=1/day=1/output123 offset 4 but got 247604 values instead over 1 pages ending at file offset 39 

This query ran against the "beeswaxauctionlogdatabase" database, unless qualified by the query. Please post the error message on our forum or contact customer support with Query Id: 4ff77c55-3b69-414d-8fd9-a3d135f5ff2f. 

: AWS의 아테나에서 나는 다음과 같은 오류가 발생했습니다.

답변

2

파루 파일은 중요한 구조를 가지고 있습니다. This page에 자세히 설명되어 있지만, 최종 결과는 메타 데이터가 마지막에 zip 파일처럼 저장되고, 파케이 파일을 연결하면 연결이 끊어집니다. Parquet 파일을 병합하려면 Parquet의 파일 형식을 이해하는 Spark와 같은 것을 사용해야합니다.

+0

그래, 그게 내가 생각한거야. 정보 주셔서 감사합니다! – seiya