질문의 기본 전제는 각 달마다 샘플을 얻으려는 대형 테이블이 있습니다. 나는 난 후 물건의 종류를 표시하기 위해 아래의 조롱했지만 분명히 그것은 --Create the table
CREATE TABLE exp_dqss_team.testranking (
Name STRING,
Age INT,
Favourite_Cheese STRIN
거대한 테이블을 마루로 저장 했으므로 조건에 따라 열을 추가해야합니다. 하이브 (Hive) 또는 임팔라 (Impala)에 새 테이블을 다시 만들지 않고도 그렇게 할 수 있습니까? 이게 뭔가요? ALTER TABLE xyz
ADD COLUMN flag AS (CASE WHEN ... END)
는
, 내가이 정보를 얻을 : 수 없습니다 프로세스 행 입출력 크기보다 더 큰 (row_size = 13.42 MB, null_indicators_size = 0) . 이 쿼리를 실행하려면 IO 크기 (--read_size 옵션)를 늘리십시오. (가) 설명 은 다음과 같다 : 06:SORT
| order by: count(*) DESC
| hosts=1 p
하이브/임팔라 테이블을 만들어서 MySQL 데이터베이스에서 Hadoop으로 데이터를 가져와야합니다. 나는 mysql에서 nvarchar 및 비트 데이터 형식을 가지고 있으므로 하이브 테이블을 크래킹하는 동안 HIVE/Impala에서 가장 적합한 데이터 형식이 무엇인지 선언해야합니다. 문자열을 사용하려고 생각하고 있습니까?
에 levenshtein으로 가입. 나는 공식을 levenshtein 사용하여 기록을 비교하여 모두 가입하고 싶습니다. 표 NLIST : +------+-------------+
| ID | S_NAME |
+------+-------------+
| 1 | Avi |
| 2 | Moshe |
| 3 | David |
....
표 FNA
자주 SUM, COUNT 및 NVL()을 많이 수행하는 쿼리를 수행합니다. 대부분의 경우 계산 된 값을 이전과 동일하게 호출합니다. 그래서 예를 들어 현재 내 코드에서이 있습니다 sum(vl.margin_1d) as margin_1d,
sum(vl.margin_7d) as margin_7d,
sum(vl.margin_14d) as marg
모두, 신생하고 사용 사례가 거의 없습니다. hdfs에 파일이 있고 임팔라 테이블에로드하려고합니다. HDFS : - HDFS에 파일 위치 // XXX/사용자/하이브/창고/ impala_test - 표 : CREATE TABLE impala_test_table (File_Format STRING, 순위 TINYINT, Splitable_ind STRING)
그래서 impo에서 sqoop으로 데이터를 내보내려고했는데, 이것은 oozie job에 의해 스케줄됩니다.하지만 처음 sqoop 작업이 시작될 때 100 %지도를 작성하고 0 %를 줄입니다. 다른 모든 동작은 채워집니다. 그리고 나는이 오지 작업을 죽이기 전에 mysql에 아무런 데이터도 없다. 그러나 그것을 죽인 후에는 데이터가 mysql 테이블에 나타난
이 IMPALA 하위 쿼리 제한 내 시간을 너무 많이 소비했습니다. 그래서 나는 사람들을 언젠가 구하기 위해 여기에 올리기로 결정했다. FROM 부분에 대해 내부 쿼리를 작성하면 표준 SQL을 작동시킬 수 없습니다. 예 : select count(*) from (SELECT * from mytable WHERE id="12345")
이 작동하지 않아 다
과 같은 테이블 표시 임팔라로 작업 중이며 아래의 패턴으로 데이터베이스에서 테이블 목록을 가져 오는 중입니다. 데이터베이스가 bank 인 것으로 가정하고이 데이터베이스 아래의 테이블은 아래와 같습니다. cust_profile
cust_quarter1_transaction
cust_quarter2_transaction
product_cust_xyz
.