hive

0열

1답변

데이터가 11GB 인 테이블과 데이터가 130GB 인 테이블이 있고 업데이트 작업을 수행하고 있습니다. 쿼리 실행 최적화를 향상시키기 위해 하이브에서 맵 조인을 사용할 수 있습니까? 이에 관한 유용한 정보를 제안하십시오.

0열

1답변

Hadoop Beginner - 데이터 처리 및 분석

HDFS는 모두 구조화 된 & 구조화되지 않은 데이터를 저장합니다 .HIVE & IMPALA를 사용하면 SQL 쿼리를 작성하여 MapReduce로 변환 할 수 있습니다. 사용자가 데이터가 저장된 스키마 또는 HDFS에 저장된 데이터로 테이블을 구성하는 방법을 알게되는 방법은 무엇입니까?

1열

2답변

Spark AVRO with BigQuery

Avro 형식의 Google 스토리지에 저장된 것과 동일한 데이터를 사용하여 하이브에 외부 테이블을 만들고 BigQuery에 다른 테이블을 만들려고합니다. 내가-스파크 브로 4.0.0 하이브, 스파크 2.2.0으로 통해 Dataproc 클러스터를 사용하고 2.1.1 이 아 브로 버전/패키지와 같은 차이가 있지만 내가 하이브를 사용하여 테이블을 작성하는 경우

0열

1답변

임팔라는 데이터베이스 커서를 지원합니까?

서버 쪽 페이징을 구현하려고합니다. 데이터베이스 커서는 이에 대한 좋은 접근 방법입니다. Impala는 관계형 데이터베이스와 같은 database cursors을 지원합니까? 설명서에 명시 적 또는 묵시적으로 언급되지 않았습니다.

2열

1답변

Cloudera VM의 HDFS에서 하이브 테이블로 데이터로드

Cloudera VM을 사용하는 경우 어떻게 HDFS에서 정보에 액세스 할 수 있습니까? 나는 HDFS에 대한 직접적인 경로가 없다는 것을 알고 있지만 동적으로 액세스하는 방법을 알지 못합니다. 하이브 CLI를 통해 하이브 테이블을 만든 후 나는 HDFS에있는 파일에서 일부 데이터를로드하려고 : load data inpath '/test/student.tx

1열

1답변

Spark의 누적 합계

Spark에서 누적 합계를하고 싶습니다. +---------------+-------------------+----+----+----+ | product_id| date_time| ack|val1|val2| +---------------+-------------------+----+----+----+ |4008607333T.upf|2017-12-

0열

1답변

오류 컴파일하는 동안 문 : 실패 : 근처 성명 컴파일

Create table d_rel_t.Acty_dim_Csv(acty_cde int, acty_nm string, acty_typ string, gdgs_ind string, dly_growth_ind string, grc_i

0열

1답변

Bigquery의 분할 된 테이블에 쿼리 삽입

Bigquery에서 마이그레이션 할 하이브로 작성된 삽입 쿼리가 있습니다. 예 : BigQuery에서 insert into test.abc partition(yrmth) select * from test.xyz 는 파티션은 YYYYMMDD 형식으로지지된다. 내가 BQ 명령 줄 도구를 통해 test.abc$20171125로드하여 파티션 테이블에 데이터를

0열

1답변

하이브 파티션 테이블의 데이터를 볼 수 없습니다.

나는 rundate라는 파티션 된 컬럼이있는 외부 테이블을 가지고 있습니다. 나는 다음 spark.sql("ALTER TABLE table ADD IF NOT EXISTS PARTITION(rundate = '2017-12-19')") 코드는 잘 작동하고 난 파티션을 볼 수 있습니다를 사용하여 파티션을 만들 DataFrame.write.mode(Save

0열

1답변

SQL의 기본 쿼리에서 하위 집합 추출

아래 쿼리에서 "2017-09-01 00:00:00"과 "2017-11-31 23:59:59"사이에 활성화 된 고객 수가 표시됩니다 "를 cust_90으로 지정하고 다른 열을 추가하여"2017-11-01 00:00:00 "과"2017-11-31 23:59:59 "사이의 활성 고객 수를 찾습니다 (전체 기간). select custid, count(disti