orc

    0

    1답변

    Vora의 ORC 리더가 char() 유형을 지원하지 않는 이유가 있습니까? 여기에 문자 (N)를 포함하는 하이브 ORC 기반 테이블의 파일을 읽으려고 할 때 내가 가진 어떤 분야입니다 : com.sap.spark.vora.client.VoraClientException: Could not load table FLIGHTS_2006_ORC: [Vora[eb

    1

    2답변

    스파크 1.6.1을 사용하고 있으며 데이터 프레임을 orc 형식으로 저장하려고합니다. 내가 직면 한 문제는 저장 방법이 매우 느리고 각 실행 프로그램에서 50M orc 파일에 약 6 분이 걸린다는 점입니다. 이 내가 dataframe dt.write.format("orc").mode("append").partitionBy("dt").save(path)

    8

    3답변

    여러 열에 걸쳐 스파크 데이터 프레임에 대한 사용자 지정 집계 함수를 지정하는 방법이 있는지 궁금합니다. john | tomato | 1.99 john | carrot | 0.45 bill | apple | 0.99 john | banana | 1.29 bill | taco | 2.59 에 : 나는 유형 (이름, 항목, 가격)의 다음과 같은 테이

    1

    1답변

    ORC 테이블을 만들면 속도가 크게 향상된다는 것을 알고 있습니다. 그러나 ORC 테이블을 파티셔닝하고 버킷으로 만들면 더 향상시킬 수 있습니까? 그렇다면 기존 ORC 테이블에서 파티셔닝 및 버킷 작성을 수행하는 방법은 무엇입니까?

    0

    1답변

    저는 Spark 1.6.1을 사용하고 있으며 저는 Spark 세계에서 여전히 아주 새롭습니다. 파일을 ORC 형식으로 저장하는 중입니다. 비교적 큰 텍스트 파일 (8GB)을 ORC로 구문 분석하려고합니다. 일반적으로 파일은 매우 넓습니다 (예 : 200 개 이상의 열). 열 유형은 기본 : Int, String, Date입니다. 모든 줄을 구문 분석 한 다

    0

    1답변

    metastore가없는 pyspark 2.0을 사용하여 일부 ORC 파일을 읽으 려합니다. 이론적으로 데이터 스키마가 ORC 파일에 포함되어 있기 때문에 그렇게 할 수 있습니다. 하지만 여기에 내가 무엇을 가지고 있습니다 : [[email protected] ~]$/usr/local/spark-2.0.0-bin-hadoop2.6/bin/pyspark