2014-02-24 5 views
4

0.95 또는 1.75 * (노드 * mapred.tasktracker.tasks.maximum)Hadoop의 이상적인 리듀서 수는 무엇입니까?

하지만 때 0.95 때 1.75를 선택하는 것입니다 이경 이상적인 수를 계산하기 위해 하둡 위키에 의해 주어진? 이 승수를 결정할 때 고려해야 할 요인은 무엇입니까?

답변

4

클러스터에서 100 개의 감소 슬롯을 사용할 수 있다고 가정 해 보겠습니다.

부하 계수가 0.95 인 경우 모든 작업에 사용할 수있는 축소 슬롯이 충분하기 때문에 모든 95 개의 축소 작업이 동시에 시작됩니다. 이는 나머지 작업 중 하나가 완료 될 때까지 대기열에서 대기 할 작업이 없음을 의미합니다. 축소 작업이 "작다", 즉 비교적 빨리 끝나거나, 모두 같은 시간을 필요로하는 경우이 옵션을 권합니다.

한편 부하 계수 1.75를 사용하면 축소 작업이 동시에 사용할 수있는 축소 작업이 100 개까지 시작되고 나머지 75 개는 대기열에서 대기하므로 줄일 수있는 슬롯이 줄어 듭니다. 유효한. 이것은 더 나은로드 밸런싱을 제공합니다. 왜냐하면 어떤 작업이 다른 작업보다 "무겁"면 (즉, 더 많은 시간을 필요로 할 때) 작업의 병목 현상이되지 않기 때문입니다. 대기열에서 작업을 실행하고 있어야합니다. 또한지도 출력의 데이터가 더 많은 작업으로 분산되므로 각 축소 작업의로드가 줄어 듭니다.

나는 내 의견을 표현할 수 있지만 이러한 요소가 항상 이상적인지 확신 할 수 없습니다. 종종 Big Data를 다루기 때문에 1.75보다 큰 인수 (때로는 4 또는 5)를 사용합니다.이 요소를 높게 설정하고로드 균형 조정을 설정하지 않으면 데이터가 각 시스템에 적합하지 않습니다.