orc

0열

1답변

Vora의 ORC 리더가 char() 유형을 지원하지 않는 이유가 있습니까? 여기에 문자 (N)를 포함하는 하이브 ORC 기반 테이블의 파일을 읽으려고 할 때 내가 가진 어떤 분야입니다 : com.sap.spark.vora.client.VoraClientException: Could not load table FLIGHTS_2006_ORC: [Vora[eb

1열

2답변

스파크 데이터 프레임 saveAsTable vs save

스파크 1.6.1을 사용하고 있으며 데이터 프레임을 orc 형식으로 저장하려고합니다. 내가 직면 한 문제는 저장 방법이 매우 느리고 각 실행 프로그램에서 50M orc 파일에 약 6 분이 걸린다는 점입니다. 이 내가 dataframe dt.write.format("orc").mode("append").partitionBy("dt").save(path)

8열

3답변

스파크에서 사용자 정의 함수로 여러 열 집계

1열

1답변

파티션 및 버킷 ORC 테이블

ORC 테이블을 만들면 속도가 크게 향상된다는 것을 알고 있습니다. 그러나 ORC 테이블을 파티셔닝하고 버킷으로 만들면 더 향상시킬 수 있습니까? 그렇다면 기존 ORC 테이블에서 파티셔닝 및 버킷 작성을 수행하는 방법은 무엇입니까?

0열

1답변

성능 향상 저장 Spark ORC

저는 Spark 1.6.1을 사용하고 있으며 저는 Spark 세계에서 여전히 아주 새롭습니다. 파일을 ORC 형식으로 저장하는 중입니다. 비교적 큰 텍스트 파일 (8GB)을 ORC로 구문 분석하려고합니다. 일반적으로 파일은 매우 넓습니다 (예 : 200 개 이상의 열). 열 유형은 기본 : Int, String, Date입니다. 모든 줄을 구문 분석 한 다

0열

1답변

pyspark 2.0에서 metastore가없는 ORC 파일을 읽는 방법

metastore가없는 pyspark 2.0을 사용하여 일부 ORC 파일을 읽으 려합니다. 이론적으로 데이터 스키마가 ORC 파일에 포함되어 있기 때문에 그렇게 할 수 있습니다. 하지만 여기에 내가 무엇을 가지고 있습니다 : [[email protected] ~]$/usr/local/spark-2.0.0-bin-hadoop2.6/bin/pyspark