동기 부여 : Apache Drill에 데이터를로드하려고합니다. Drill이 JSON 입력을 처리 할 수 있다고 생각하지만, Parquet 데이터에서 JSON 입력이 어떻게 수행되는지보고 싶습니다. Hive 등으로 데이터를로드 한 다음 Parquet 커넥터 중 하나를 사용하여 출력 파일을 생성하지 않으면이 작업을 수행 할 수 있습니까?
드릴은 높은 지연 시간의 하이브가 아닌 ad-hoc 드릴 다운 쿼리에 흥미로운 도구처럼 보입니다. 그 두 가지 사이에는 괜찮은 통합이 있어야하지만 찾지 못했습니다. 오늘 내 작업은 모두 Hive/Shark에서 수행된다고 가정합니다. 어떻게 Drill과 통합 할 수 있습니까? 드릴 엔진으로 앞뒤로 전환해야합니까? 나는 Shark와 Hive와 비슷한 통합을 찾
위키 사양 에 따라 드릴 프로젝트를 만들었지 만 프로젝트에 약간의 오류가 있습니다. 일부 클래스 (BigIntVector, BitHolder, BigIntHolder)는 확인할 수 없으며 작업 영역에는 이러한 클래스 파일이 실제로 포함되어 있지 않습니다. 무슨 일이 일어나고 있는지에 대한 어떤 제안이 있니?
HDFS의 데이터에 대해 "거의 실시간으로"데이터 분석 (OLAP 형)을하고 싶습니다. 필자의 연구에 따르면 세 가지 언급 된 프레임 워크가 Apache Hive에 비해 상당한 성능 향상을 보인 것으로 나타났습니다. 아무도 그 중 하나와 실용적인 경험을 가지고 있습니까? 성능뿐 아니라 안정성 측면에서도 그렇습니까?
저는 2 가지 종류의 데이터를 가지고 있습니다 - 1) Schemaless (정확히 스키마가 아니지만 시간이 지남에 따라 열이 계속 증가하고 스키마가 변경되면로드/게시 작업이 변경되는 것을 원하지 않습니다.) 이 데이터는 현재 키 저장소에 저장됩니다. 키 수는 약 1000 개입니다. 쌍 수는 약 7 억입니다. 2) RDBMS 테이블 - 각각 수백만 개의 행
Apache Drill 문서에서 게시 된 것처럼 전체 ANSI SQL 2003을 지원합니다. 여기서 내 질문은 HDFS/HIVE에서 행 수준의 데이터가 업데이트되거나 삭제 된 쿼리를 드릴이 실행하는 방법입니다. 우리 모두는 HDFS에서 데이터를 수정할 수 없다는 것을 알고 있습니다. 요청이 1 개 더 많으므로 누구든지 높은 자격 증명이 필요하므로 'Apac