2012-03-14 1 views
1

나는 hadoop에 상대적으로 초보자이며 HDFS에서 복제가 어떻게 작동하는지 더 잘 이해하고자합니다.HDFS 복제 - 데이터 저장

10 노드 시스템 (각 노드에 1TB)이 있고 총 용량이 10TB라고 가정 해 보겠습니다. 복제 계수가 3 인 경우 각 파일에 대해 원본 복사본 1 개와 복제본 3 개가 있습니다. 본질적으로 내 스토리지의 25 %만이 원래 데이터입니다. 따라서 10TB 클러스터는 원래 2.5TB의 복제되지 않은 데이터 만 유효합니다.

제 생각이 맞는지 알려주세요.

답변

4

귀하의 생각은 약간 벗어났습니다. 3의 복제 계수는 3 개의 데이터 사본을 보유한다는 것을 의미합니다. 더 구체적으로 말하자면 파일에 대해 각 블록의 사본이 3 개있을 것입니다. 따라서 파일이 10 개의 블록으로 구성되는 경우 10 개의 노드에 총 30 개의 블록이 있거나 노드 당 약 3 개의 블록이 있습니다.

10x1TB 클러스터의 용량이 10TB보다 작고 복제 계수가 3이며 실제 용량이 약 3.3TB이며 실제로 수행하는 데 필요한 공간 때문에 실제 용량이 약간 더 큽니다. 처리, 임시 파일 보관 등

+0

Chris! 나는 이것이 어떻게 작동하는지 내부적으로 이해하려고 노력하고있다. 특정 패턴을 찾기 위해 스캔을한다고 가정하면 파일에서 각 블록의 3 개 복사본 모두에 대해 또는 블록의 원래/첫 번째 복사본에 대해이 검색이 수행됩니까? –

+0

블록 한 부만 복사합니다. 선택한 사본은 무작위이며 "마스터"사본이 없습니다. –