Amazon DMS에서 S3 로의 데이터 이동

현재 S3 내에 데이터 레이크를 만들고 있으며 DMS를 사용하여 mysql DB에서 S3로 데이터를 성공적으로 이동했습니다. DMS에서 '기존 데이터 마이그레이션 및 진행중인 변경 사항 복제'옵션을 선택했습니다. 나는 CSV로 데이터를 변형 시켰지 만, 장래에 마루를 선택할 것입니다. 이 메서드는 데이터베이스 테이블의 모든 원시 데이터가있는 초기 csv 파일을 만듭니다. 그런 다음 삽입, 삭제, 업데이트 된 후속 CSV 파일을 만듭니다.Amazon DMS에서 S3 로의 데이터 이동

이제 S3에서 Redshift로 데이터를 복사하는 전략을 찾고 있습니다. 대량 데이터를 복사하고 S3에서 Redshift 로의 지속적인 변경 사항을 복사하는 전략을 찾고 있습니다. 아마도이 데이터의 대부분을 집계하고 요약해야 할 것입니다. 가급적이면 Python을 사용하는 AWS Glue를 사용하겠습니다. 이 ETL 프로세스는 S3의 csv 파일에서 읽어야하며 이미 처리 된 파일을 무시합니다.

어떻게하면 편리할까요? 어떤 아이디어라도 환영합니다. 이상적으로 필자는 설명 된대로 정확하게 프로세스를 수행하는 Python (또는 Java) 스크립트를 기대하고 있습니다.

감사합니다.

출처

2017-11-12 ChrisK

가 왜 mysql-> S3에서 이동 DMS를 설정 않았다 아래 링크를 참조하십시오? mysql-> redshift가 아닌? 즉 모든 데이터를 적색 변속 "스테이징"영역에로드 한 다음 적색 변이에 직접 데이터 변환을 실행합니까? –

내가 언급했듯이 나는 데이터 호수를 짓고있다. 원시 데이터는 전용 호수 인 S3에 있어야합니다. – ChrisK

자동으로 S3 대상을보고 CSV를 마루로 변환하도록 AWS Glue를 설정하는 것이 좋습니다. - http://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html - https://github.com/awslabs/aws-glue-samples

선택적으로로드 및/또는 데이터의 호수에서 직접 데이터를 쿼리 아마존 Redshift에 스펙트럼을 사용합니다. - 람다 기능과 트리거를 사용하여 http://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html

출처

2017-11-13 15:28:51

이것은 좋은 대답입니다. 단지 데이터 호수가 필요하다는 것을 확인하십시오. 적색 편이 중심 솔루션에 상당한 합병증과 비용을 추가하게 될 것입니다. –

을 수행 할 수 있습니다 파일이 S3에 업로드 할 때 Redshift에클러스터가 자동으로로드되는 방식으로 설치.

A Zero-Administration Amazon Redshift Database Loader

출처

2017-11-13 20:50:25 Praveen

Amazon DMS에서 S3 로의 데이터 이동

답변

관련 문제