하나의 작업에서 테이블 추적기에서 테이블 이름을 얻은 다음 각 테이블에서 다른 SQL 작업 (작업)을 실행하려는 dag를 만들려고합니다. 테이블을 전달할 수 있습니다. 나는 웹 UI에서 이러한 작업을 볼조차 할 수없는 오전 루프 실행되지 않아요에 XCOM하지만 작업을 사용하여 다른 작업에 하나의 작업에서 이름이 from __future__ import pr
Airflow를 시작하고 대규모 DAG를 구성하는 최상의 방법이 궁금합니다. ETL의 경우 논리적 그룹화에 속하는 많은 작업이 있지만 그룹은 서로 종속되어 있습니다. 다음 중 베스트 프랙티스로 간주되는 것은 어느 것입니까? 해당 파일 분할 여러 파일에 걸쳐 DAG 정의의 모든 작업에 하나 개의 큰 DAG 파일 (이 작업을 수행하는 방법?) 여러 DAG를,
AWS ECS, 1 스케줄러, 2 웹 서버 및 여러 셀러리 작업자에서 기류를 실행 중입니다. 콘테이너에서 실행할 때 영향을받는 유일한 것을 보면 웹 서버가 8793의 작업자 포트에 액세스 할 수 없으므로 작업자의 로그를 검색 할 수 있습니다. 컨테이너에서 실행할 때 영향을받는 것은 그 것입니까?
(내가 this question의 알고 있지만 충분히 내가 업데이트 응답이 바라고 지금 부탁 해요 오래된입니다.) I가 플러그인을 쓰고 있어요 AWS Batch for Airflow를 사용하고 작업자가 AWSBatchOperator 연산자를 통해 Batch에 제출 한 후에 작업이 완료 될 때까지 대기하고 Airflow에 알릴 수있는 방법이 필요합니다. 나는
pip install airflow 명령을 사용하여 Apache 공기 흐름을 설치했습니다. airflow을 입력하여 기류에 액세스하려고하면 아래 오류가 표시됩니다. `Traceback (most recent call last):
File "/usr/bin/airflow", line 4, in <module>
from airflow impo
아래 요구 사항이 있지만 trigger_rule 옵션 중 아무 것도 전달할 수없는 것 같습니다. 예상되는 행동. 작업 D에 U1과 U2의 두 가지 업스트림 작업이 있고 U1이 1 초, U2가 100 초 걸린다고 가정 해 봅시다. U1과 U2가 모두 성공적으로 실행 된 후에 또는 성공적으로 실행되었지만 건너 뛰었을 때만 작업 D를 시작하려고합니다. U1 스킵
airflow을 처음 사용합니다. 나는 dag를 실행하려고하고 있으며 어떤 스케줄링도하고 싶지 않습니다. 명령 줄 인수로 파이프 라인을 실행하고 현재 출력을 모두 무시하고 싶습니다. 나는 시작 날짜가없고, 스케줄링도없고, 타이밍도없고, 재시도 논리도 없다. 시작하기 위해 일련의 함수를 순차적으로 실행하고 싶다. 설명서에는 항상 날짜가 들어 있습니다. air
한 간격 씩 느린 두 개의 일정이 있습니다. 내 구성은 다음과 같습니다. args = {
'owner' : 'test',
'start_date' : datetime.now(),
'email' : ['[email protected]'],
'email_on_failure': True,
'email_on_retry'
나는 "What's the deal with start_date?"에 관한 Airflow의 FAQ를 읽었지만 동적 인 start_date을 사용하는 것이 권장되지 않는 이유는 아직도 분명하지 않습니다. 내 이해하는 는 DAG의 execution_date는 DAG의 모든 작업 사이의 최소 start_date에 의해 결정되며, 이후 DAG를 실행합니다 최신 e