2013-08-12 14 views
0

많은 SQL 서버에서 왔기 때문에 hadoop에 들어갈 때 데이터에 어떤 일이 발생하는지 정확히 알기가 어려울 수 있습니다.Hadoop에 데이터 가져 오기

내 이해는 약 200k 정도의 텍스트 형식의 책을 가지고 있다면 ... 데이터를 단순히 hadoop에 복사하면 검색 가능해집니다. 그러나이 데이터는 블록의 일부가되어 HDFS가 최적이 될 수 있습니까? 아니면 HDFS가 성능을 저하 시키는데 200k 파일로 남아 있습니까?

Bigtable에서 태블릿이라고도하는 블록이 무엇입니까?

도움을 주셔서 감사합니다. FlyMario

답변

0

HDFS (기본 64MB)의 블록 크기보다 작은 파일은 블록의 일부가됩니다. 그렇습니다. 그러나 이러한 작은 파일이 많고 MapReduce 작업을 실행하는 경우와 같이 이러한 파일과 같은 작은 파일은 성능에 해를 끼칠 수 있습니다.

바닐라 하둡은 Bigtable과 아무 관련이 없으며 HDFS 블록은 실제로 태블릿과 비교할 수 없습니다. Hadoop의 HDFS 블록은 보유하고있는 데이터에 대한 지식이 없지만 Bigtable 태블릿은 데이터를 인식합니다.

+0

대단히 감사합니다! 그건 의미가 있습니다. 나는 아무 구조도없는 것처럼 보이기 때문에 야후와 구글 같은 검색 엔진이 하둡과 같은 것을 어떻게 사용할 것인지 알아 내려고 노력했다. 그냥 파일처럼 보입니다. –