parquet

1열

1답변

나는 스파크를 마루와 함께 사용합니다. 필자는 가장 자주 사용하는 열을 캐시에 저장하고 다른 하나는 디스크에 보관할 수 있기를 원합니다. myDataFrame.select("field1").cache myDataFrame.select("field1").count myDataFrame.select("field1").where($"field1">5).cou

0열

1답변

Hive 분할 파킹 테이블에로드 할 때 메모리가 부족합니다.

이 기능은 Hadoop의 프로덕션 환경이 아닙니다. 그것은 우리가 흐름을 문제을 테스트하는 단일 노드 환경입니다 : 데이터의 단일 파티션으로 마루 테이블을로드 할 때 하이브 아래 쿼리가 실패합니다. 원본 테이블/파티션은 142MB 파일입니다. insert 문은 하나의 매퍼 작업을 생성하여 결국 Java out of memory 오류로 인해 실패합니다. 이

3열

1답변

SparkSQL의 Avro 스키마 및 마루판 형식 읽기/쓰기

SparkSQL에서 마루판 파일을 쓰고 읽으려고합니다. 스키마 진화의 이유로, 필자의 글과 읽기에 Avro 스키마를 사용하고 싶다. 제 생각에 이것은 Spark 외부에서 (또는 Spark 내에서 수동으로) 가능합니다. AvroParquetWriter 및 Avro의 일반 API 그러나 SparkSQL의 write() 및 read() 메서드 (DataFrame

0열

1답변

HDF5 파일을 파켓 파일로 변환하는 방법은 무엇입니까?

pandas.HDFStore()으로 팬더를 통해 HDF5에 약 800GB의 대용량 데이터 프레임을 저장했습니다. import pandas as pd store = pd.HDFStore('store.h5') df = pd.Dataframe() # imagine the data being munged into a dataframe store['df'] =

6열

1답변

AWS 람다 함수에서 쪽모 파일 만들기

S3에서 마루로 변환하고 싶은 (1 Mb) CSV/JSON 파일 집합을 받았습니다. 나는 Lambda 함수를 사용하여이 파일을 Parquet으로 쉽게 변환 할 수있을 것으로 기대하고 있었다. Google을 살펴본 후 하둡을 사용하지 않고도 해결책을 찾지 못했습니다. 파일 변환이기 때문에 쉬운 해결책이 없다고 생각합니다. 누군가이 변환을 수행하기 위해 Jav

0열

2답변

spark 2.0에서 csv와 같은 mutli 폴더 parquet을 읽는 방법

나는 매일 여러 데이터를 여러 폴더에 저장할 수 있습니다 (대부분 시간 기준). 이제 저는 마루 한 파일을 저장하는 두 가지 형식을 가지고 있고 다른 하나는 csv입니다. 여백을 절약하기 위해 마루판 형식으로 저장하고 싶습니다. 폴더 구조는 다음과 같다 : [[email protected] raw]# tree . ├── entityid=10001 │

1열

1답변

python의 스파크 데이터 프레임에 파일을로드하지 않고 Parquet 파일의 스키마를 가져 옵니까?

여기 엔 나무 마루 파일의 스키마를 가져 오는 데 사용할 수있는 파이썬 라이브러리가 있습니까? 현재 우리는 마루 파일을 Spark의 dataframe에로드하고 데이터 프레임의 스키마를 애플리케이션의 일부 UI에 표시하려고합니다. 그러나 스파크 컨텍스트를 초기화하고 데이터 프레임을로드하고 데이터 프레임에서 스키마를 가져 오는 작업은 시간이 많이 소요됩니다.

0열

1답변

레코드에 적용된 조건부 푸시 다운이있는 경우에도 파래 파일 중첩 된 열 중첩 된 열 전체를 검색합니다.

쪽모이 세공 형식으로 재생 중입니다. 나는 이벤트의 마루 파일을 가지고 있는데, 각각 타임 스탬프, 주제 및 태그로 구성됩니다. 파일은 항목별로 정렬 된 다음 타임 스탬프별로 정렬됩니다. 훨씬 빠른 실행 및 반환 매우 몇 행 select topic from T where topic = 404; : 내가 좋아하는 설명 될 수 쿼리를 실행합니다. 내가 뭔가

5열

2답변

스파크 마루 통계 (최소/최대) 통합

저는 스파크가 마루에서 통계 (최소/최대)를 저장하는 방법과 쿼리 최적화를 위해 정보를 사용하는 방법을 조사했습니다. 몇 가지 질문이 있습니다. 첫 번째 설정 : Spark 2.1.0, 다음은 긴 유형 및 문자열 유형 열이있는 1000 행의 데이터 프레임을 설정합니다. 다른 열로 정렬됩니다. 그래서 질문은 왜 스파크, 특히, 2.1.0 만 생성되는 분입니다

1열

1답변

여기 엔 나무 마루로 된 스키마와 스파크

저는 CSV 파일을 마루로 변환하려고합니다. 그리고 이것을 수행하기 위해 스파크를 사용하고 있습니다. SparkSession spark = SparkSession .builder() .appName(appName) .config("spark.master", master) .getOrCreate(); Dataset<Ro