2017-12-19 17 views
0

Kudu 테이블에 데이터를로드하려고했지만 이상한 결과가 나타납니다.HDFS에서 Kudu로 데이터로드

drop table if exists hdfs_datedim; 
create external table hdfs_datedim 
(...) 
row format 
delimited fields terminated by ',' 
location '/user/me/DATEDIM'; 

하는 SELECT COUNT (*)가 나에게 현재의 행이 많이 알려줍니다 임팔라 콘솔에서

나는 Sqoop을 수입 네 HDFS 파일에서 외부 테이블을 만들었습니다. 쿼리 할 때 데이터가 좋아 보인다.

나는 결과

을 복사로 선택 표준을 사용
INSERT INTO impala_kudu.DATEDIM 
SELECT * FROM hdfs_datedim; 

하는 SELECT COUNT (*)가 impala_kudu.DATEDIM는 네 개의 행 (HDFS 하지 행의 수에있는 파일의 수를 가지고 나에게 말한다 테이블.

어떤 아이디어?

+0

'select * from hdfs_datedim limit 10'을 수행하여 결과가 실제로 올바른 형식인지 확인할 수 있습니까? – Amos

+0

예. 'Select Count (*)'는 4가 아닌 17,000을 반환합니다. 'Select * ... limit 10'은 완벽하게 보이는 10 개의 행을 반환합니다. 나는 똑같은 생각을했다. 원본 테이블이 올바로 표시되지만 경험이 너무 약해서 쉽게 잘못 될 수 있습니다. – Jay

+0

kudu 테이블에서만 발생합니까? 나에게 벌레처럼 들린다. – Amos

답변

0

Sqoop을에 ​​의해 생성 된 데이터가 내부적으로 있었다 형식이 잘못 CSV 파일의 순서되었다. 가져 오기 때문에 플랫 파일에서 데이터의 오류없이 실패했습니다. 일 동안 조심 문자열에 구분 문자가 포함 된 형식 및 텍스트 문자열을 먹었습니다.