나는 hadoop에 상대적으로 초보자이며 HDFS에서 복제가 어떻게 작동하는지 더 잘 이해하고자합니다.HDFS 복제 - 데이터 저장
10 노드 시스템 (각 노드에 1TB)이 있고 총 용량이 10TB라고 가정 해 보겠습니다. 복제 계수가 3 인 경우 각 파일에 대해 원본 복사본 1 개와 복제본 3 개가 있습니다. 본질적으로 내 스토리지의 25 %만이 원래 데이터입니다. 따라서 10TB 클러스터는 원래 2.5TB의 복제되지 않은 데이터 만 유효합니다.
제 생각이 맞는지 알려주세요.
Chris! 나는 이것이 어떻게 작동하는지 내부적으로 이해하려고 노력하고있다. 특정 패턴을 찾기 위해 스캔을한다고 가정하면 파일에서 각 블록의 3 개 복사본 모두에 대해 또는 블록의 원래/첫 번째 복사본에 대해이 검색이 수행됩니까? –
블록 한 부만 복사합니다. 선택한 사본은 무작위이며 "마스터"사본이 없습니다. –