최근 하이브와 임팔라를 사용하여 HDFS에있는 많은 수의 CSV 데이터를 쿼리하기 시작했습니다. 내가 기대했던대로 Impala의 응답 시간은 Hive에 비해 지금까지 사용한 쿼리에 비해 더 좋아졌습니다. 하이브가 필요하고 임팔라가 적합하지 않은 몇 가지 유형의 쿼리/사용 사례가 있는지 궁금합니다. HDFS에서 임펄라가 하이브에 비해 더 빠른 쿼리 응답을 제
임팔라에서 실행되는 쿼리에 관한 간단한 질문이 있습니다. (필자는보고 도구로 Pentaho 보고서 디자이너를 사용하고 있습니다.) 쿼리는 다음과 같습니다. select a.*, b.sentatmosphere, b.sentgeneral, b.sentnetcharge, b.sentnetqual, b.sentservice, b.senttidiness
from
여러 프리미티브 및 컬렉션이있는 복잡한 Java (JAXB) 객체가 멤버 변수로 간주됩니다. Reducer 단계에서는 < K, V> 쌍으로 HDFS에 이러한 객체를 내 보냅니다. 여기서 K는 객체의 직렬화 된 형식 (SequenceFileOutputFormat) 인 ID 및 V입니다. 하이브/임팔라 HDFS/로컬 위치에서 이러한 자바 직렬화 된 개체를로드
내가 설치 한 클라우 데라 임팔라 v0.4은 4.1.3 내 클러스터는 슬레이브 머신으로 구성 slave1 --> Impala Daemon, State Store daemon
slave2 --> Impala Daemon
그래서, 나는이 machines- >impala-shell
에 임 팔 라 쉘을 실행할 수 있어요 내가 (SLAVE1/slave2에)
Cloudera Impala에서 분리 기능을 사용하려고하면 "Split Unknown"이라는 AnalysisException이 계속 나타납니다. 그것은 내장 함수 페이지에 나열된 유효한 함수 인 것 같습니다. 참고로 임페라와 상호 작용하기 위해 색조를 사용하고 있습니다. 누구든지이 문제의 원인을 알고 있습니까?