2017-01-06 11 views
0

pandas.HDFStore()으로 팬더를 통해 HDF5에 약 800GB의 대용량 데이터 프레임을 저장했습니다.HDF5 파일을 파켓 파일로 변환하는 방법은 무엇입니까?

import pandas as pd 
store = pd.HDFStore('store.h5') 
df = pd.Dataframe() # imagine the data being munged into a dataframe 
store['df'] = df 

나는 이것을 임팔라에게 질문하고 싶습니다. 이 데이터를 파켓으로 파싱하는 간단한 방법이 있습니까? 임팔라는 HDF5를 직접 사용할 수 있습니까? HDF5에 대한 또 다른 옵션이 있습니까?

답변

0

필자가 직접 시도한 것은 아니지만, 여기에 Spark : https://gist.github.com/jiffyclub/905bf5e8bf17ec59ab8f을 사용하여 HDFStore를 마루로 변환하는 방법을 보여주는 링크가 있습니다.

+0

'hdf_to_parquet.py'를 실행하면 이러한 파케 파일을 디스크에 기록 할 수 있습니까? 그런 다음 임팔라로 가져올 수 있습니까? – ShanZhengYang