2017-10-13 6 views
0

우리는 Pentaho 주전자에서 Apache AIrflow로 이동하여 ETL을 수행하고 1 개의 도구 아래 모든 데이터 프로세스를 중앙 집중화하려고합니다.공기 흐름을 사용하여 Postgres/MySQL에서 S3로 데이터 이동

우리는 케틀을 사용하여 Postgres/Mysql 데이터베이스의 데이터를 매일 읽고 S3 → Redshift로 데이터를 이동합니다.

가장 쉬운 방법은 무엇입니까? 직접이 작업을 수행 할 수있는 연산자가 없습니다. 그래서 MySQL/Postgres 연산자를 사용하여 데이터를 로컬 파일에 저장하고 S3 연산자를 사용하여 S3로 데이터를 이동해야합니까?

답변

1

당신은 당신의 자신의 운영자 mysql_to_s3 '를 구축하고 공기 흐름에 플러그인으로 추가 할 수 있습니다 감사합니다.

mysql_to_gcs.py

당신은 모든 코드 대신 s3_hook를 사용 def _upload_to_gcs에 약간 변화 할 수 있습니다 : s3_hook.py

는 GCS MySQL에서 데이터를 보관하는 연산자가있다. 사용자 정의 플러그인에 대한

문서 :

Airflow plugins: Blog article

Airflow plugins: Official documentation