2017-10-31 12 views
1

매우 큰 배열을 hdf5 파일에 저장했습니다. 그것을로드하고 Dask 배열로 관리하려고합니다.hdf5 파일의 Shuffle Dask 배열 청크

내가 지금 도전하고있는 것은이 배열 시간을 과정에서 뒤섞어 야 할 필요가 있다는 것입니다. 이것은 메모리 자체보다 더 큰 배열을 섞는 것이 하나의 도전 과제입니다.

그래서 내가 성공하지 않고하려는 것은 dask 어레이 청크를 섞는 것입니다.

#Prepare data 
f=h5py.File('Data.hdf5') 
dset = f['/Data'] 
dk_array = da.from_array(dset, chunks=dset.chunks) 

그래서 위의 컨텍스트에서 어떻게 청크를 섞을 수 있습니까?

+0

달성하고자하는 목표에 좀 더 구체적 일 수 있습니까? 어떻게 셔플하고 끝낼 수 있습니까? – mdurant

답변

0

배열이 테이블 형식이라면 무작위 데이터 열 (da.concatenateda.random 참조)을 추가하고이를 dask.dataframe으로 변환하여 해당 열을 인덱스로 설정할 것을 고려할 수 있습니다.

경고는 디스크상의 임의 재생이 필요하므로 다소 느립니다.

+0

감사합니다. 도움이 될 것입니다. 건배. – Axel