2017-04-16 13 views
2

Airflow의 많은 운영자는 데이터를 대상 시스템에 업로드하기 전에 로컬로 저장합니다. 이는 데이터가 큰 경우 작업자 노드가 상당한 양의 작업을 수행하고 있음을 의미합니다.Apache AirFlow가 확장 성을 달성하는 방법은 무엇입니까?

Airbnb (Airflow를 개방 한 회사)는 2015 년에 5000 개의 작업을 제공하는 기류 클러스터에 6 개의 노드 만 있다고 말합니다.

여기에 뭔가가 있습니까?

이해하시기 바랍니다.

답변

2

Apache Airflow의 주된 목적은 작업 스케줄링 및 모니터링입니다. 일반적인 데이터 처리 엔진으로 설계되지 않았습니다. Apache Spark 또는 Apache Hive보다 Oozie를 대신 사용하는 것으로 생각하십시오.

기류는 작업자 (Mesos, RabbitMQ/Celery)와 함께 분석 할 수 있지만 분석 시스템에서는 여전히 무거운 작업을 수행합니다. 따라서 예를 들어 Airflow는 Spark 작업 및 Druid 쿼리를 관리하고 변경 사항을 처리 할 수 ​​있습니다.