답변

0

importtsv 도구를 사용하여 CSV 파일을 HBase에 대량로드 할 수 있습니다. http://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/

다음은 블로그 게시물을 요약 한 것입니다 : 여기에 그 작업을 수행하는 방법에 대한 괜찮은 튜토리얼이

첫째, 당신은 테이블을 만들 :

hbase shell 
create 'cdr', {NAME => 'f'}, {SPLITS => ['g', 'm', 'r', 'w']} 

NAME이의 이름을 지정합니다 컬럼 제품군. 쪼개진 조각은 단지 조금 더 빠르게 움직이는 것입니다. 이것이 CDR이고 ROWKEY가 전화 번호 또는 이와 유사한 것으로 될 경우, 문자가 아닌 숫자로 분할하고자합니다. 실제로 데이터를 실제로 청크로 분할하는 분할을 선택하기 만하면됩니다.

그런 다음, 당신이 당신의 CDR 데이터 cdr.csv에서 데이터를로드 할 수 importtsv를 사용

hadoop jar /usr/lib/hbase/hbase-xxx.jar importtsv 
-Dimporttsv.separator=, 
-Dimporttsv.bulk.output=output 
-Dimporttsv.columns=HBASE_ROW_KEY,f:col2,f:col3,f:col4,... cdr cdr.csv 

을 그리고, 그것을 완성하기 :

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles output wordcount 

참고 : 당신이 생각해야 너의 행키가 뭐야. 첫 번째 열을 선택하는 것이 올바른 선택이 아닐 수 있습니다. HBase는 관계형 데이터베이스가 아닙니다. HBase에서 의미있는 것을하십시오.