2010-08-15 2 views
1

EC2에서 Hadoop을 사용할 계획입니다. 인스턴스 사용량마다 지불해야하므로 실제 작업에 필요한 것보다 고정 된 인스턴스 번호를 갖는 것이 좋지 않습니다.EC2에서 Hadoop 클러스터의 온 디맨드 슬레이브 생성

우리의 응용 프로그램에서는 많은 작업이 동시에 실행되며 우리는 항상 슬레이브 요구 사항을 알지 못합니다. 최소한의 슬레이브로 hadoop 클러스터를 시작하고 나중에 요구 사항에 따라 가용성을 관리 할 수 ​​있습니까?

하위 질문 수요에 노예를 파괴/생성 : 클러스터를 하둡 수 관리 여러 작업을 동시에?

감사

답변

1

하둡에 사용되는 기본 스케줄러는 간단한 FIFO 하나, 당신은 실행중인 작업의 각 클러스터의 공유를 할당하고 그 주식을 제어하는 ​​다양한 구성이 FairScheduler를 사용하여 조사 할 수있다 .

EC2와 관련하여 몇 가지 노드로 쉽게 시작할 수 있습니다. 그런 다음 대기열에 너무 많은 작업이 있고 클러스터의 모든 슬롯이 사용 중이라는 것을 알게되면 더 많은 노드를 추가하십시오. 인스턴스를 시작하고 jobtracker에 등록 할 작업 추적기를 시작하면됩니다.

그러나 이러한 노드의 시작 및 종료를 관리하는 자체 시스템이 있어야합니다.

0

그냥 우리가 Apache Whirr이에 대한 몇 가지 작업을하고 있다는 것을 알게 할 유망 보인다. 진행 상황을 WHIRR-214으로 추적하고 있습니다. 투표에 참여하거나 개발에 참여하십시오. :)

+0

나는 그것을 위해 투표했습니다 – Nayn