2017-01-07 6 views
3

안녕하세요, 저는 최근에 아마존 EMR에 대해 배웠고, 제 지식에 따르면 EMR 클러스터를 사용하면 3 개의 노드를 선택할 수 있습니다.Amazon Emr - 코어 노드가있을 때 Task 노드가 필요합니까?

  1. NameNode, Job Tracker 및 Resource manager와 같은 기본 Hadoop 데몬을 실행하는 Master.
  2. 데이터 노드 및 Tasktracker 데몬을 실행하는 코어.
  3. TaskTracker 만 실행하는 작업.

내 질문에 왜 EMR이 작업 노드를 제공합니까? hadoop은 우리가 동일한 노드에 Datanode 데몬과 Tasktracker 데몬을 가지고 있어야한다고 제안합니다. 이렇게하기위한 Amazon의 논리는 무엇입니까? S3의 데이터를 코어 노드의 HDFS로 스트리밍하고, HDFS에서 데이터를 태스크 노드로 공유하는 것 외에도 HDFS를 처리하여 IO 오버 헤드를 증가시킬 수 있습니다. 왜냐하면 내가 아는 한도 내에서 TaskTrackers는 특정 작업에 대한 데이터 블록을 가진 DataNode에서 실행되기 때문에 다른 노드에 TaskTrackers가있는 이유는 무엇입니까?

답변

0

하나의 사용 사례는 스팟 인스턴스를 작업 노드로 사용하는 경우입니다. 값이 싼 경우 EMR 클러스터에 일부 컴퓨팅 성능을 추가하는 것이 좋습니다. 대부분 민감하지 않은 작업에 유용합니다.