2017-10-06 12 views
1

에 나는 아래 S3에 dataframe 저장합니다 생성하는 pyspark 작업을 실행 해요 :내보내기 스파크 Dataframe 아테나

df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path) 

난 그냥 spark.read.orc(s3_path)을 사용하여 문제없이 orcfile을 읽을 수 있습니다, 그래서 거기 orcfile의 스키마 정보.

그러나 아테나를 사용하여 데이터 프레임 내용을보고 싶습니다. 분명히 하이브 메타 스토어에 글을 쓴다면 하이브를 호출하여 show create table ${table_name}을 할 수 있습니다.하지만 원하는 모든 것이 간단한 스키마 일 때 많은 작업이 필요합니다.

다른 방법이 있습니까?

답변

1

AWS Glue Data Catalog에 테이블을 만드는 S3 경로에 대해 Glue crawler을 설정하는 것이 방법 중 하나입니다. 또는 Glue API를 통해 Glue 테이블 정의를 만들 수 있습니다.

AWS 접착제 데이터 카탈로그가 완전히 아테나와 통합되어, 그래서 당신은 아테나에 접착제 표를 참조하고 직접 쿼리 할 수있을 것

: http://docs.aws.amazon.com/athena/latest/ug/glue-athena.html