매우 큰 배열을 hdf5 파일에 저장했습니다. 그것을로드하고 Dask 배열로 관리하려고합니다.hdf5 파일의 Shuffle Dask 배열 청크
내가 지금 도전하고있는 것은이 배열 시간을 과정에서 뒤섞어 야 할 필요가 있다는 것입니다. 이것은 메모리 자체보다 더 큰 배열을 섞는 것이 하나의 도전 과제입니다.
그래서 내가 성공하지 않고하려는 것은 dask 어레이 청크를 섞는 것입니다.
#Prepare data
f=h5py.File('Data.hdf5')
dset = f['/Data']
dk_array = da.from_array(dset, chunks=dset.chunks)
그래서 위의 컨텍스트에서 어떻게 청크를 섞을 수 있습니까?
달성하고자하는 목표에 좀 더 구체적 일 수 있습니까? 어떻게 셔플하고 끝낼 수 있습니까? – mdurant