dask/pandas 범주 변환 차이

주로 범주 형 데이터의 메모리 csv 파일보다 더 크게 관리합니다. 처음에는 큰 CSV 파일을 만든 다음 Pandas read_csv를 통해 읽고 categorical로 변환하여 hdf5에 저장했습니다. 일단 범주 형식으로, 그것은 메모리에 멋지게 들어 맞습니다.dask/pandas 범주 변환 차이

파일이 커지고 Dask로 이동했습니다. 그래도 같은 과정.

그러나 빈 필드에서 팬더는 np.nan을 사용하는 것으로 보이며 카테고리는 cat.categories 목록에 포함되지 않습니다.

Dask를 사용하면 빈 값이 NaN으로 채워지고 별도의 범주로 포함되며 HDF에 저장되면 향후 호환성 경고가 표시됩니다.

이 버그입니까? 아니면 단계가 무엇입니까? 행동은 팬더와 dask 사이에 다른 것 같습니다.

감사

출처

2016-10-10 Julian C

이것은 https://github.com/dask/dask/pull/1578

참조 0.11.1

버전 DASK에 해결

출처

2016-10-13 17:57:29

답변

관련 문제