2016-11-27 7 views
1

에 NameNodes, DataNode에서, 매퍼 기어의 수를 설정하는 방법은는 하둡

NameNodes의 수

DataNode에서

매퍼

을 설정하는 방법을 알고 싶어요

변속기

코드/구성 하둡.

답변

1

네임 노드 및 데이터 노드 수은 비즈니스 요구 사항에 따라 결정됩니다. 프로그래밍으로 설정하지 마십시오.

확장 성이 필요한 경우 HDFS 연합의 개념을 조사해야합니다.

연맹에 대한 자세한 내용은이 설명서 page을 참조하십시오.

페더레이션은 이름 서비스를 수평으로 확장하기 위해 여러 개의 독립적 인 네임 노드/네임 스페이스를 사용합니다. 네임 노드는 연합되어 있습니다. 네임 노드는 독립적이며 서로 조정할 필요가 없습니다. 데이타 노드는 모든 네임 노드가 블록을 공유 할 수있는 저장소로 사용됩니다.

enter image description here

입력 분할에 의해 결정된다 맵퍼 수.

숫자를 줄일 수 있지만 프레임 워크는 권장 사항을 따르지 않아도됩니다.

따라서 Mappers 및 Reducer의 수를 결정하려면 Hadoop에 대한 결정을 유지하는 것이 좋습니다.

이 관련 SE 질문에서보세요 :

편집

How hadoop decides how many nodes will do map and reduce tasks

:

하둡 클러스터 크기 : 1. 귀하의 비즈니스에서 데이터의 requriements 식별이 2. replicaiton 요소를 식별해야 귀하의 데이터에 대해 3. 향후 몇 년간 데이터 예외 비율을 계산하십시오. 4. 위의 데이터를 얻은 후에는 이상적인 클러스터 크기 및 하드웨어를 다시 고려하십시오 Namenode와 Datanode를위한 quirements.

자세한 내용은이 cloudera article을 참조하십시오.

맵에 대한 적절한 병렬 처리 수준은 노드 당 약 10-100 개의 맵인 것처럼 보입니다. 여기서 노드는 NameNode 또는 DataNode를 의미합니까?

데이터 노드입니다.

매퍼에 대해 이야기 할 때 다른 사람이 그것을 입력의 수에 따라 하둡 프레임 워크에 의해 결정되었다

프레임 워크에 의해 결정된다라고하면서 일부 분할 같은 번호가 다른 블록의 같은 수를 말한다 말한다

쪼개다.

는 관련 SE 질문에 대해 살펴 유무 : 응답에 대한

How does Hadoop perform input splits?

+0

감사합니다, 나는 NameNodes는 하둡 프레임 워크에 의해 결정됩니다 configration, 맵퍼 및 감속기를 통해 설정 될 수 있음을 이해합니다. 이제 DataNode의 번호 설정 방법은 무엇입니까? 또한 두 번째 링크에서 언급 한 내용은 다음과 같습니다. "맵의 병렬 처리 수준은 노드 당 약 10-100 개의 맵인 것으로 보입니다."노드는 여기에서 NameNode 또는 DataNode를 의미합니까? 그리고 매퍼 (Mappers)에 대해 이야기 할 때 어떤 사람들은 나누기와 같은 숫자를 말합니다. 다른 사람들은 같은 수의 블록을 말합니다. 다른 사람들은 프레임 워크에 의해 결정되고 정확한 수의 스플릿이나 블록을 제공하지 않을 것이라고 말합니다. –