1
CREATE TABLE employee_details(              
emp_first_name varchar(50), 
emp_last_name varchar(50), 
emp_dept varchar(50) 
) 
PARTITIONED BY (
emp_doj varchar(50), 
emp_dept_id int ) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'         
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'          
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'; 

위치/데이터/창고/employee_details 저장된 하이브 테이블의

나는 하이브 테이블 직원이 데이터가로드하고있는 하이브 테이블에 분할 된 데이터를 사용하여 RC 파일에서 RDD를 만드는 방법 emp_doj, emp_dept_id로 파티션되고 FileFormat은 RC 파일 형식입니다.

(단순히 sqlContext를 사용하여) 하이브 컨텍스트를 사용하지 않고 spark-sql을 사용하여 테이블의 데이터를 처리하고 싶습니다.

당신은 당신이 스파크 2.0을 사용하는 경우, 당신은이 방법으로 그것을 할 수있는 RDD으로 하이브 테이블의 분할 된 데이터를로드하는 방법에 저를 도와 DataFrame

+0

'sqlContext.sql는 ("employee_details SELECT * FROM")'당신은 – Shankar

+0

사용하는 스파크의 버전? – Shankar

답변

0

로 변환 시겠어요.

val spark = SparkSession 
    .builder() 
    .appName("Spark Hive Example") 
    .config("spark.sql.warehouse.dir", warehouseLocation) 
    .enableHiveSupport() 
    .getOrCreate() 

import spark.implicits._ 
import spark.sql 

// Queries are expressed in HiveQL 
sql("SELECT * FROM src").show() 
사용할 수