a = dd.read_csv('huge.csv', blocksize=1e6)
g = a.groupby(['col_a', 'col_b'])
g.col_c.sum().max().compute() # failed, MemoryError
저는 dask.dataframe
이 메모리 문제에서 실패하지 않을 것이라고 생각했지만 무엇입니까? 은 BTW, 나는 매우 작은 크기를 설정하면 내가 생각 blocksize
문제는 기본적으로큰 파일에 데이터 프레임 메모리 문제가 있습니다.