aws-glue

    0

    1답변

    AWS S3에서 CSV 파일을 읽는 스크립트를 작성하고 몇 가지 필드에서 Null 검사를 적용한 다음 결과를 S3로 다시 저장합니다 파일. 문제는 값이 null 인 경우 String 유형의 필드를 만났을 때 빈 문자열로 변환된다는 것입니다. 그러나 나는이 전환이 일어나기를 원하지 않는다. 다른 모든 데이터 유형의 경우 정상적으로 작동합니다. glueCont

    2

    1답변

    AWS Glue Data Catalog를 Spark SQL의 Metastore로 사용하고 싶습니다. AWS 콘솔 as instructed here을 통해 EMR 클러스터를 시작했습니다. 스파크 셸에서 모든 접착제 카탈로그 테이블을 볼 수 있지만 Zeppelin에서는 볼 수 없습니다. Zeppelin 속성 설정에서 속성을 설정해야합니까 ?? 미리 감사드립니다

    0

    1답변

    직접 응답을 찾을 수 없어서 여기에서 물어볼 생각입니다. 예를 들어 AWS Glue를 사용하여 임의의 시간 범위에서 AVG, MIN, MAX 등의 데이터 해상도를 낮추는 데 사용할 수 있습니까? - 지난 달 외부 온도의 2000+ 데이터 포인트를 감안할 때 ETL 작업을 사용하여 지난 한 달 동안 일별 평균 30 데이터 포인트로 그 해상도를 낮 춥니 다.

    2

    1답변

    AWS Glue 콘솔에서 Development Endpoint를 만들었습니다. 이제 gluepyspark 콘솔에서 SparkContext 및 SQLContext에 액세스 할 수 있습니다. 카탈로그에 액세스하여 모든 데이터베이스와 테이블을 나열하려면 어떻게합니까? 평소 sqlContext.sql("show tables").show()이 작동하지 않습니다. C

    1

    1답변

    Glue/Athena에 등록 된 데이터 세트를 가지고 있는데 my_db.table으로 전화하십시오. Athena를 통해 쿼리 할 수 ​​있으며 일반적으로 모든 것이 순서대로 수행됩니다. 나는 접착제 작업이 테이블을 사용하기 위해 노력하고있어,하지만 다음과 같은 상당히 불투명 오류 메시지가 무엇입니까 : py4j.protocol.Py4JJavaError: A

    3

    3답변

    AWS의 새로운 ETL 도구에서 numpy 및 pandas와 같은 패키지를 Glue?라고 사용하는 가장 쉬운 방법은 무엇입니까? 파이썬에서 numpy와 pandas를 사용하는 AWS Glue로 실행하고 싶은 완성 된 스크립트를 가지고 있습니다.

    1

    1답변

    AWS Glue가 관리하는 데이터 카탈로그와 S3 버킷에서 새 테이블 또는 파티션으로 수행하는 모든 업데이트는 크롤러를 사용하여 새 항목을 유지하기 위해 매일 업데이트합니다 파티션 건강. 그러나 사용자 정의 테이블 속성도 필요합니다. 하이브에서는 각 테이블의 데이터 소스를 테이블 속성으로 사용하고 데이터 카탈로그의 테이블에 붙이기를 추가했지만 크롤러를 실행

    2

    2답변

    AWS Glue 작업을 설정하고 Redshift에 연결하려고합니다. 내가 Redshift에 대한 연결 유형을 설정할 때 내가 오류를 받고 있어요 : ".. 적절한 보안 그룹을 찾을 JDBC로 연결 유형을 변경하고 연결을 추가 다시 시도 할 수 없습니다" : 다음 일치하는 IAM 역할 AWSGlueServiceRoleDefault와 함께 작업을 설정 : 은