2011-12-30 1 views
0

다른 산업 데이터를 크롤링하고 단일 hbase 테이블에 데이터를 저장하고 있습니다. 예를 들어 Electronics and Computer industries를 크롤링하고 'industry_tbl'테이블에 저장합니다. 이제는 전자 제품 및 컴퓨터 산업에 대한 데이터 세트를 축소하여 수집하고 다른 데이터 세트를 사용하여 감속기 출력을 생산하려고하지만 현재 hbase는 두 산업의 전체 데이터를 가져와 내게 감소 된 결과를 제공합니다. 나는 산업별 차별화 할 수 없다.Hbase Map reduce and index

이 문제를 해결하는 방법에 대한 도움이나 아이디어가 있으십니까?

답변

0

매퍼에서 방출하는 키의 일부로 산업을 포함하십시오.

+0

샘플 코드로 설명해 주시겠습니까? 감사합니다 – Karthik

0

만들기 산업은 HBase를 키와 사용의 가장 중요한 부분은 당신이 당신은 또한 열이 HBase를 테이블에 스캔 할 수있는지도-감소

+0

예 제가 포함 할 수 있지만 10 개의 산업이 있다고 명시 적으로 정의하거나 10 개의 별도 작업으로 실행해야한다고 가정합니다. 암시 적으로 키를 고려하고 산업 세트에서 산출물을 산출하는 다른 대안? 감사! – Karthik

0

에 대한 정의 SCAN에 그것을 전달합니다. 이렇게하려면 특정 산업에 대한 모든 정보를 특정 업계 칼럼에 입력하십시오.

예를 들어, 업계 표는 다음과 같이 보일 것입니다. 주어진 행에 대해

: CF1-과학 CF2 기술 등

이 방법은 당신의 기업 데이터는 밀접하게 쿼리 시간을 가져, 특정 지역에서 분할 될 것입니다.

이제 Scan API를 사용하여 쿼리하고 스캔 할 특정 열 패밀리를 포함시킵니다.

그래서 스캔을 통해 특정 산업과 관련된 세부 정보 만 반환됩니다.

이 경우 행은 이전과 동일하게 유지됩니다.

이 설명이 도움이 되길 바랍니다.