aws-glue

0열

1답변

Spark SQL : 결과 파일에서 null 값이 빈 문자열로 변환됩니다.

AWS S3에서 CSV 파일을 읽는 스크립트를 작성하고 몇 가지 필드에서 Null 검사를 적용한 다음 결과를 S3로 다시 저장합니다 파일. 문제는 값이 null 인 경우 String 유형의 필드를 만났을 때 빈 문자열로 변환된다는 것입니다. 그러나 나는이 전환이 일어나기를 원하지 않는다. 다른 모든 데이터 유형의 경우 정상적으로 작동합니다. glueCont

2열

1답변

EMR 클러스터의 Zeppelin이 AWS 글루의 카탈로그 테이블을 나열하지 않음

AWS Glue Data Catalog를 Spark SQL의 Metastore로 사용하고 싶습니다. AWS 콘솔 as instructed here을 통해 EMR 클러스터를 시작했습니다. 스파크 셸에서 모든 접착제 카탈로그 테이블을 볼 수 있지만 Zeppelin에서는 볼 수 없습니다. Zeppelin 속성 설정에서 속성을 설정해야합니까 ?? 미리 감사드립니다

0열

1답변

집계에 ETL 사용

직접 응답을 찾을 수 없어서 여기에서 물어볼 생각입니다. 예를 들어 AWS Glue를 사용하여 임의의 시간 범위에서 AVG, MIN, MAX 등의 데이터 해상도를 낮추는 데 사용할 수 있습니까? - 지난 달 외부 온도의 2000+ 데이터 포인트를 감안할 때 ETL 작업을 사용하여 지난 한 달 동안 일별 평균 30 데이터 포인트로 그 해상도를 낮 춥니 다.

2열

1답변

AWS Glue Catalog의 모든 데이터베이스 및 테이블을 나열하는 방법?

AWS Glue 콘솔에서 Development Endpoint를 만들었습니다. 이제 gluepyspark 콘솔에서 SparkContext 및 SQLContext에 액세스 할 수 있습니다. 카탈로그에 액세스하여 모든 데이터베이스와 테이블을 나열하려면 어떻게합니까? 평소 sqlContext.sql("show tables").show()이 작동하지 않습니다. C

1열

1답변

AWS Glue가 입력 데이터 세트에 액세스 할 수 없음

Glue/Athena에 등록 된 데이터 세트를 가지고 있는데 my_db.table으로 전화하십시오. Athena를 통해 쿼리 할 수 있으며 일반적으로 모든 것이 순서대로 수행됩니다. 나는 접착제 작업이 테이블을 사용하기 위해 노력하고있어,하지만 다음과 같은 상당히 불투명 오류 메시지가 무엇입니까 : py4j.protocol.Py4JJavaError: A

3열

3답변

AWS Glue Python

AWS의 새로운 ETL 도구에서 numpy 및 pandas와 같은 패키지를 Glue?라고 사용하는 가장 쉬운 방법은 무엇입니까? 파이썬에서 numpy와 pandas를 사용하는 AWS Glue로 실행하고 싶은 완성 된 스크립트를 가지고 있습니다.

1열

1답변

AWS Glue Crawler는 사용자 정의 테이블 속성을 덮어 씁니다.

AWS Glue가 관리하는 데이터 카탈로그와 S3 버킷에서 새 테이블 또는 파티션으로 수행하는 모든 업데이트는 크롤러를 사용하여 새 항목을 유지하기 위해 매일 업데이트합니다 파티션 건강. 그러나 사용자 정의 테이블 속성도 필요합니다. 하이브에서는 각 테이블의 데이터 소스를 테이블 속성으로 사용하고 데이터 카탈로그의 테이블에 붙이기를 추가했지만 크롤러를 실행

2열

2답변

빨간색 쉬프트 연결을위한 풀 작업 : "적절한 보안 그룹을 찾을 수 없습니다."

AWS Glue 작업을 설정하고 Redshift에 연결하려고합니다. 내가 Redshift에 대한 연결 유형을 설정할 때 내가 오류를 받고 있어요 : ".. 적절한 보안 그룹을 찾을 JDBC로 연결 유형을 변경하고 연결을 추가 다시 시도 할 수 없습니다" : 다음 일치하는 IAM 역할 AWSGlueServiceRoleDefault와 함께 작업을 설정 : 은