hive

    1

    1답변

    Spark (분석 도구로 사용) 및 Hadoop과 함께 NoSql 환경에 넣어야하는 구조화 된 데이터 (필드 당 하나의 값, 각 행에 대해 동일한 필드)를 작성하고 있습니다. 그러나, 나는 어떤 형식을 사용해야하는지 궁금합니다. 나는 json이나 csv에 대해 생각하고 있었지만 잘 모르겠습니다. 너는 왜 생각하니 왜 그런가? 나는이 분야에서 적절하게 결정할

    0

    1답변

    파이썬을 사용하여 하이브를 연결하고 싶습니다. 저는 아나콘다를 사용하여 모듈을 얻고 있습니다. 누구나 나에게 파이썬과 하이브를 연결하기위한 정확한 구문을 제안 할 수 있습니까, 나는 데이터를 가져올 하이브 데이터베이스에 대한 사용자 이름과 암호를 가지고 있습니다.

    0

    1답변

    Oozie를 사용하여 간단한 하이브 스크립트를 실행 해보고 테스트를 시도하고 있지만 이해할 수없는 오류가 계속 발생합니다. 작업을 제출할 때마다 "작업 실패, 오류 메시지 [매개 변수 식에 과제가 있어야합니다 : jobRequest]"라는 오류 메시지가 나타납니다. 그러나, 나는이 매개 변수를 정의하고 원래 구성을 제출할 때 값을 할당합니다. 문제의 매개

    0

    1답변

    모든 소스 시스템에서 hdfs의 폴더에 들어있는 최신 파일로 하이브 테이블을 업데이트해야하는 유스 케이스를 구현해야합니다. 나는 여기 sqoop을 사용하지 않는다. 소스 시스템에서 업데이트 된 파일을 특정 HDFS 위치 (예 : /tmp/emp.csv)로 수신한다고 가정합니다. 하이브에 관리되는/내부 테이블을 생성하고 처음으로 수동으로 데이터를로드했습니다.

    0

    1답변

    하이브 성능에 대해 몇 가지 질문이 있습니다. 온라인으로 압축 된 데이터 (특히 ORC, Snappy)를 읽으면 데이터를 읽는 동안 성능이 향상 될 것입니다. 또한 주문 데이터를 사용하여 테이블에 데이터를로드하면 큰 파일이 1 개가되어 읽기 가용성이 떨어질 수 있습니다. 따라서 다른 순서로 동일한 효과를 얻으려면 클러스터를 사용하여 여러 개의 작은 파일을

    1

    1답변

    하이브에서 보았던 것은 0.14 insertions and updates입니다. 내 첫 질문 : 외부 테이블에 대한 삽입 및 업데이트가 작동합니까? 만약 그렇다면 어떻게 작동합니까? 관련 HDFS 파일은 새 줄을 추가하고 관련된 줄을 각각 업데이트하여 수정해야한다고 생각합니다. 감사합니다.

    0

    1답변

    에 대한 오류가 발생합니다 : 선택 * airlines_analysis.airline에서; airlines.analysis.airline에서 선택 airline.month; 하지만 난이 집계 명령을 실행할 때, 다음과 같이 뭔가 : 선택 카운트 airlines_analysis.airline에서 (별개의 uniquecarrier); 문을 처리하는 동안 오류

    1

    1답변

    두 테이블을 조인 할 때 데이터 레코드의 순서가 중요합니까 (성능 현명한 경우) 알고 싶습니다. P. 맵 사이드 조인이나 버킷 조인을 사용하고 있지 않습니다. 감사합니다.

    -1

    1답변

    이상한 문제가 발생했습니다. 파일 및 테이블 정의와 쉼표로 탭 구분 기호를 사용하려고했습니다. 두 경우 모두 10 진수 값을 NULL로 읽습니다. 그러나이 필드를 INT로 정의하면 올바르게 작동합니다. 쉼표로 구분 값 샘플 데이터 : 1,22.334 2,445.322 3,999.233 테이블 X를 만들 (ID의 INT, SAL DECIMAL (3,3)) 행

    0

    1답변

    상당히 많은 수의 키 값 (10-30)이있는 테이블에 맵 데이터 유형이 있습니다. 내가 키를 폭발 할 때, 값, 나는 아래 얻을 : SELECT id, key,value FROM tbl1 lateral view explode(map_field) feature_cols 결과 : 그러나 id, key1, value1 id, key2, value2 i