0
필자는 cfg에서 병렬 처리를 설정할 수 있음을 알고 있지만 작업 당 또는 적어도 dag 당 수행 할 수있는 방법이 있습니까?작업 당 병렬 처리를 지정 하시겠습니까?
DAG1 =
task_id: 'download_sftp'
parallelism: 4 #I am fine with downloading multiple files at once
task_id: 'process_dimensions'
parallelism: 1 #I want to make sure the dimensions are processed one at a time to prevent conflicts with my 'serial' keys
task_id: 'process_facts'
parallelism: 4 #It is fine to have multiple tables processed at once since there will be no conflicts
DAG2 (별도의 파일) =
task_id: 'bcp_query'
parallelism: 6 #I can query separate BCP commands to download data quickly since it is very small amounts of data
풀에 대해 더 읽을 수 있습니까? 나는 풀을 문자열로 명명하고 기류가 마술처럼 모든 것을 처리합니까? 나는이 지역으로 분지하지 않았으므로 나는 무슨 일이 일어나고 있는지 이해하고 싶다. 한 가지 피하고 싶지 않은 두 가지 작업을 차원 테이블이나 뭔가를 업데이트하려고 충돌이 발생합니다 (postgres 및 psycopg2 내 데이터를로드하려면 COPY EXPERT 사용하고 있습니다). 따라서 차원 테이블 업데이트의 경우 각 소스에서 한 번에 하나씩 수행하도록하고 싶지만 SFTP 다운로드 및 팩트 테이블로드의 경우 한 번에 여러 프로세스를 수행 할 수 있습니다. – trench