현재 S3 내에 데이터 레이크를 만들고 있으며 DMS를 사용하여 mysql DB에서 S3로 데이터를 성공적으로 이동했습니다. DMS에서 '기존 데이터 마이그레이션 및 진행중인 변경 사항 복제'옵션을 선택했습니다. 나는 CSV로 데이터를 변형 시켰지 만, 장래에 마루를 선택할 것입니다. 이 메서드는 데이터베이스 테이블의 모든 원시 데이터가있는 초기 csv 파일을 만듭니다. 그런 다음 삽입, 삭제, 업데이트 된 후속 CSV 파일을 만듭니다.Amazon DMS에서 S3 로의 데이터 이동
이제 S3에서 Redshift로 데이터를 복사하는 전략을 찾고 있습니다. 대량 데이터를 복사하고 S3에서 Redshift 로의 지속적인 변경 사항을 복사하는 전략을 찾고 있습니다. 아마도이 데이터의 대부분을 집계하고 요약해야 할 것입니다. 가급적이면 Python을 사용하는 AWS Glue를 사용하겠습니다. 이 ETL 프로세스는 S3의 csv 파일에서 읽어야하며 이미 처리 된 파일을 무시합니다.
어떻게하면 편리할까요? 어떤 아이디어라도 환영합니다. 이상적으로 필자는 설명 된대로 정확하게 프로세스를 수행하는 Python (또는 Java) 스크립트를 기대하고 있습니다.
감사합니다.
가 왜 mysql-> S3에서 이동 DMS를 설정 않았다 아래 링크를 참조하십시오? mysql-> redshift가 아닌? 즉 모든 데이터를 적색 변속 "스테이징"영역에로드 한 다음 적색 변이에 직접 데이터 변환을 실행합니까? –
내가 언급했듯이 나는 데이터 호수를 짓고있다. 원시 데이터는 전용 호수 인 S3에 있어야합니다. – ChrisK