apache-drill

    14

    3답변

    동기 부여 : Apache Drill에 데이터를로드하려고합니다. Drill이 JSON 입력을 처리 할 수 ​​있다고 생각하지만, Parquet 데이터에서 JSON 입력이 어떻게 수행되는지보고 싶습니다. Hive 등으로 데이터를로드 한 다음 Parquet 커넥터 중 하나를 사용하여 출력 파일을 생성하지 않으면이 작업을 수행 할 수 있습니까?

    1

    1답변

    드릴은 높은 지연 시간의 하이브가 아닌 ad-hoc 드릴 다운 쿼리에 흥미로운 도구처럼 보입니다. 그 두 가지 사이에는 괜찮은 통합이 있어야하지만 찾지 못했습니다. 오늘 내 작업은 모두 Hive/Shark에서 수행된다고 가정합니다. 어떻게 Drill과 통합 할 수 있습니까? 드릴 엔진으로 앞뒤로 전환해야합니까? 나는 Shark와 Hive와 비슷한 통합을 찾

    0

    1답변

    위키 사양 에 따라 드릴 프로젝트를 만들었지 만 프로젝트에 약간의 오류가 있습니다. 일부 클래스 (BigIntVector, BitHolder, BigIntHolder)는 확인할 수 없으며 작업 영역에는 이러한 클래스 파일이 실제로 포함되어 있지 않습니다. 무슨 일이 일어나고 있는지에 대한 어떤 제안이 있니?

    41

    2답변

    HDFS의 데이터에 대해 "거의 실시간으로"데이터 분석 (OLAP 형)을하고 싶습니다. 필자의 연구에 따르면 세 가지 언급 된 프레임 워크가 Apache Hive에 비해 상당한 성능 향상을 보인 것으로 나타났습니다. 아무도 그 중 하나와 실용적인 경험을 가지고 있습니까? 성능뿐 아니라 안정성 측면에서도 그렇습니까?

    1

    1답변

    저는 2 가지 종류의 데이터를 가지고 있습니다 - 1) Schemaless (정확히 스키마가 아니지만 시간이 지남에 따라 열이 계속 증가하고 스키마가 변경되면로드/게시 작업이 변경되는 것을 원하지 않습니다.) 이 데이터는 현재 키 저장소에 저장됩니다. 키 수는 약 1000 개입니다. 쌍 수는 약 7 억입니다. 2) RDBMS 테이블 - 각각 수백만 개의 행

    0

    1답변

    Apache Drill 문서에서 게시 된 것처럼 전체 ANSI SQL 2003을 지원합니다. 여기서 내 질문은 HDFS/HIVE에서 행 수준의 데이터가 업데이트되거나 삭제 된 쿼리를 드릴이 실행하는 방법입니다. 우리 모두는 HDFS에서 데이터를 수정할 수 없다는 것을 알고 있습니다. 요청이 1 개 더 많으므로 누구든지 높은 자격 증명이 필요하므로 'Apac