orc

    2

    1답변

    프로덕션 환경에서 Hadoop을 처음 사용하는 데 상당히 익숙합니다. 데이터베이스에서 큰 테이블을 Hive로 가져 오기 위해 특종을 사용했습니다. Scoop은 쉼표로 구분 된 텍스트 파일을 만들고 하이브에서 해당 테이블을 만들었습니다. ORC (이진 데이터 지방 테이블 칼럼 현명한 데이터 저장, 압축 등)에 비교 될 수있는 텍스트 파일 정도만큼 비효율적이므

    1

    1답변

    에 나는 아래 S3에 dataframe 저장합니다 생성하는 pyspark 작업을 실행 해요 : df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path) 난 그냥 spark.read.orc(s3_path)을 사용하여 문제없이 orcfile을 읽을 수 있습니다, 그래서 거기

    1

    1답변

    하이브의 파일 형식이 HCatalog를 사용하는 pigScript에서 효율적으로 사용될 수 있는지 설명 할 수 있습니까? 현재 어떤 하이브 파일 형식이 효율적인지 이해하고 싶습니다. 현재 우리는 날짜를 기준으로 파티션 된 하이브 테이블을 가지고 있으며 기본 파일은 순차 파일입니다. 80 일간의 데이터를 읽으면 약 70,000 개의 매퍼가 생성됩니다. 맵 분

    1

    1답변

    나는 kafka 메시지를 읽고 AWS s3의 ORC 파일로 메시지를 덤핑하는 Flink 스트리밍 프로그램을 만들고 있습니다. Flink의 BucketingSink와 ORC 파일 작성자의 통합에 대한 문서는 발견되지 않았습니다. BucketingSink에서 사용할 수있는 그러한 ORC 파일 작성기 구현은 없습니다. 여기에 붙어있는 아이디어가 있습니까?

    0

    1답변

    는, 이것은 "생성"명령의 정의입니다 ORC 테이블에 열을 바꾸기 : ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' OUTPUTFORMAT

    0

    1답변

    ORC 및 쪽모 세공 형식을 사용하여 긴 텍스트를 저장할 적절한 데이터 유형이 궁금합니다. 이 두 형식 중 어느 것도 기본 문자열 유형에 대한 길이/크기 제한이 있습니까? 감사합니다.

    6

    1답변

    불꽃에서 오크 색인 생성을 활성화하는 옵션은 무엇입니까? df .write() .option("mode", "DROPMALFORMED") .option("compression", "snappy") .mode("overwrite") .format("orc") .option("ind

    1

    1답변

    저는 Spark-2.2를 사용하고 있습니다. 나는 스파크의 버킷을 Pocing하고 있습니다. 내가이 요청에 의한 그룹의 설명 실행하고있어 +--------------------+--------------------+-------+ | col_name| data_type|comment| +--------------------+------------

    0

    1답변

    하이브에 파티션 된 ORC 테이블이 있습니다. 가능한 모든 파티션이있는 테이블을로드 한 후 HDFS에서 가져옵니다. 여러 개의 ORC 파일 즉, HDFS의 각 파티션 디렉토리에는 ORC 파일이 있습니다. 각 파티션 아래에있는 모든 ORC 파일을 하나의 큰 ORC 파일로 결합해야 사용할 수 있습니다. 누가 여러 개의 ORC 파일 (각 파티션에 속함)을 하나의

    0

    1답변

    데이터 레벨에서 병합을 수행하여 스트라이프 수가 감소되도록하고 싶습니다. 이것은 파일이 매시간 처리되고 크기가 더 작은 ORC 파일이 파티션별로 생성되기 때문입니다. 하이브 병합은 스트라이프 수준의 파일을 병합 할 수 있습니다. 내가 연결하면 파일 병합은 많은 줄무늬가 추가되는 것처럼 줄무늬 수준에서만 발생합니다. 나는 단지 2-3 줄의 줄무늬를 여러 개