"디렉토리를 대상으로 파일을 추가 할 수 없습니다" 이 쿼리 : sqoop import --connect jdbc:mysql://xx.xx.xx.xx/database \
--username sqoop --password sqoop --table datatable \
--target-dir /home/cloudera/user/hive/war
또는 쿼리 임팔라 가입 : Select * from Table1 t1
left outer join Table2 t2 on (t1.column1 = t2.column1 OR t1.column2 = t2.column2)
그러나 나는 다음과 같은 오류가 발생합니다 : 나는 CROSS JOIN을 사용하여 시도했다 NotImplementedException:
예를 들어 원래 SP에는 여러 IN 매개 변수와 SQL이 포함되어 있습니다. 이제 각 SQL을 구현하고 Oozie를 사용하여 Oracle SP의 전체 프로세스/워크 플로를 시뮬레이트 한 Java 응용 프로그램을 사용했습니다. 올바른 방법인지는 확실하지 않습니다. 조언을 좀 해주실 수 있겠습니까? 사전에 감사합니다!
impala 내부 테이블이나 csv, parquet, hbase와 같은 외부 테이블 형식과 같은 여러 종류의 파일 형식이 있습니다. 이제 평균 삽입 비율이 50K 행/초이고 각 행이 약 1K임을 보장해야합니다. 또한 일부 데이터는 간혹 업데이트 될 수 있습니다. 또한 이러한 데이터에 대해 일부 집계 연산을 수행해야합니다. 외부 테이블과 임팔라를 사용할 때
제 문제에 대해 분명히 알기를 바랍니다. 고마워요 :) 임팔라 연결 (라이브러리 : impala.dbapi 가져 오기 연결에서)을 사용하고 있습니다. 일반적으로 cursor.execute(query.value, (year_var, month_var,day_var)) - 또한 변수, 잘 작동 : 쿼리를 실행하기 위해 나는 실행 명령을 사용하고 있습니다. 문제
파일에서 수십억 개의 레코드를 읽는 응용 프로그램을 작성한 다음 IMPALA ODBC를 통해 Impala 테이블에 레코드를 씁니다. 이미 매개 변수 INSERT INTO table VALUES (?,?,.....,?)
과 단일 문을 사용하거나 여러 삽입하여 삽입 쿼리를 실행하려고했다 : INSERT INTO table VALUES (?,?,.....,?
임팔라를 4 개월 이상 사용 해왔고 대부분의 경우 하이브에 비해 매우 빠른 것으로 나타났습니다. 데이터 처리를 위해 Hadoop의 빠른 프레임 워크를 평가하는 과정에 있기 때문에 임팔라보다 빠른 기본 Hadoop 환경에서 더 이상 프레임이 작동하는지 알기를 원합니다 (모든 유형, 메모리 또는 MR1 또는 원사 기반 일 수 있음). !) 포괄적 인 목록이 도
check1<-rimpala.query("select * from sum2")
Error in .jcall("RJavaTools", "Ljava/lang/Object;", "invokeMethod", cl, :
java.sql.SQLException: Method not supported
dim (sum2)는 49501 행 18 열입니다. c
상황 - CDH 5.2 클러스터 (16 노드, 공유 클러스터)의 임팔라 관리 테이블에서 하루 약 3 천만 행, 데이터 2 년 분. 1 일 데이터를 가져와 집계하는 일일 집계 논리를 구성하려고 시도하고 그 과정을 다음 날 반복해서 반복합니다. (임팔라를 통해) 이것은 2 년 전체 창에 대한 집계를 작성하기 위해 수행해야하는 1 회 프로세스이며 이후 다른 도구
임팔라 계산 통계 관련 문제가 특정 표에 있습니다. 임팔라의 컴퓨팅 통계 문을 완료하는 데 너무 많은 시간을 소요하거나 특정 테이블 표 세부 크기에 실패 시간에 문제 : 문제의 세부 사항은 다음과 같습니다 : 45 GB 파 쇄 기 울림 압축 기록 수 : 41 억 파티션 : 두 개의 열로 나누어집니다. 관찰 우리는 임팔라에서 우리는이 특정 테이블에 계산 통계