두 대의 컴퓨터로 구성된 하둡에 다중 노드 클러스터가 있습니다. 첫 번째 머신 (마스터 및 슬레이브 구성)은 이름 노드와 데이터 노드를 실행하고 두 번째 머신 (구성된 슬레이브)은 데이터 노드를 실행합니다.Hadoop의 데이터 노드/Slavenodes간에 데이터를 배포하는 방법은 무엇입니까?
그들 사이의 데이터를 거의 똑같이 업로드하고 배포하고 싶습니다.
먼저 :
나는 두 가지 시나리오가 나는 크기가 500메가바이트의 파일 FILE1이 있다고 가정하고 내가 사용 먼저 컴퓨터에 업로드 :
hadoop fs -put file1 hdfspath
가 양쪽으로 분할 될 것인가 데이터 노드 또는 첫 번째 기계에만 저장?
배포가 시작될 때 : 첫 번째 컴퓨터에서 블록 크기를 초과 한 후 배포하거나 다른 기준이있는 경우입니까?
각 데이터 노드에 대해 똑같이 250MB로 나눕니까?
둘째 : 나는 250이 있다고 가정 크기가 각각 2MB의 파일 내가 사용하는 최초의 기계에 DIR1이 들어있는 폴더를 업로드 :
hadoop fs -put dir1 hdfspath
같은 질문 : 데이터에 배포됩니다 두 기계 또는 첫 번째 기계에서만. 또한 배포가 언제 어떻게 발생합니까?
감사합니다.
답장을 보내 주셔서 감사합니다. 데이터의 밸런스를 조정해야합니다. 그렇지 않으면 모두 하나의 데이터 노드에 저장됩니다. 나는 우리가 사용해야한다고 읽었습니다 : hdfs hdfs balancer.그런데 Hadoop의 웹 인터페이스에서 각 노드의 데이터를 보는 방법 즉 URL은 무엇입니까? –