HDFS는 모두 구조화 된 & 구조화되지 않은 데이터를 저장합니다 .HIVE & IMPALA를 사용하면 SQL 쿼리를 작성하여 MapReduce로 변환 할 수 있습니다. 사용자가 데이터가 저장된 스키마 또는 HDFS에 저장된 데이터로 테이블을 구성하는 방법을 알게되는 방법은 무엇입니까?
Avro 형식의 Google 스토리지에 저장된 것과 동일한 데이터를 사용하여 하이브에 외부 테이블을 만들고 BigQuery에 다른 테이블을 만들려고합니다. 내가-스파크 브로 4.0.0 하이브, 스파크 2.2.0으로 통해 Dataproc 클러스터를 사용하고 2.1.1 이 아 브로 버전/패키지와 같은 차이가 있지만 내가 하이브를 사용하여 테이블을 작성하는 경우
Cloudera VM을 사용하는 경우 어떻게 HDFS에서 정보에 액세스 할 수 있습니까? 나는 HDFS에 대한 직접적인 경로가 없다는 것을 알고 있지만 동적으로 액세스하는 방법을 알지 못합니다. 하이브 CLI를 통해 하이브 테이블을 만든 후 나는 HDFS에있는 파일에서 일부 데이터를로드하려고 : load data inpath '/test/student.tx
Bigquery에서 마이그레이션 할 하이브로 작성된 삽입 쿼리가 있습니다. 예 : BigQuery에서 insert into test.abc partition(yrmth) select * from test.xyz
는 파티션은 YYYYMMDD 형식으로지지된다. 내가 BQ 명령 줄 도구를 통해 test.abc$20171125로드하여 파티션 테이블에 데이터를
나는 rundate라는 파티션 된 컬럼이있는 외부 테이블을 가지고 있습니다. 나는 다음 spark.sql("ALTER TABLE table ADD IF NOT EXISTS PARTITION(rundate = '2017-12-19')")
코드는 잘 작동하고 난 파티션을 볼 수 있습니다를 사용하여 파티션을 만들 DataFrame.write.mode(Save
아래 쿼리에서 "2017-09-01 00:00:00"과 "2017-11-31 23:59:59"사이에 활성화 된 고객 수가 표시됩니다 "를 cust_90으로 지정하고 다른 열을 추가하여"2017-11-01 00:00:00 "과"2017-11-31 23:59:59 "사이의 활성 고객 수를 찾습니다 (전체 기간). select custid, count(disti