1
CREATE TABLE employee_details(
emp_first_name varchar(50),
emp_last_name varchar(50),
emp_dept varchar(50)
)
PARTITIONED BY (
emp_doj varchar(50),
emp_dept_id int )
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat';
위치/데이터/창고/employee_details 저장된 하이브 테이블의
나는 하이브 테이블 직원이 데이터가로드하고있는 하이브 테이블에 분할 된 데이터를 사용하여 RC 파일에서 RDD를 만드는 방법 emp_doj, emp_dept_id로 파티션되고 FileFormat은 RC 파일 형식입니다.(단순히 sqlContext를 사용하여) 하이브 컨텍스트를 사용하지 않고 spark-sql을 사용하여 테이블의 데이터를 처리하고 싶습니다.
당신은 당신이 스파크 2.0을 사용하는 경우, 당신은이 방법으로 그것을 할 수있는 RDD으로 하이브 테이블의 분할 된 데이터를로드하는 방법에 저를 도와 DataFrame
'sqlContext.sql는 ("employee_details SELECT * FROM")'당신은 – Shankar
사용하는 스파크의 버전? – Shankar