가 어떻게이 파일을 통해 pd.read_csv()에 반복적으로 덩어리를 사용할 수 있습니다 내가 한 번에 전체 데이터 세트에서 읽은 것처럼 는 DTYPE 및 기타 메타 정보를 유지 chunksize 영역 사용하고 계십니까? 메모리에 저장하기에는 너무 큰 데이터 세트를 읽어야합니다. pd.read_csv를 사용하여 파일을 가져온 다음 즉시 청크를 HDFSto
에 프레임에서 열을 선택하는 방법 I했습니다 다중 색인이있는 HDFStore에 '데이터'라는 frame_table. DataFrame에서 다음과 같이 보일 수 있습니다. var1 var2 var3 var4 var5 var6
x_coor y_coor date
928 310 2006257 133 14987 7045 18 240 1
Pandas에서는 테이블 형식으로 HDFStore에있는 모든 MultiIndex 색인을 효율적으로 가져올 수 있습니까? 나는 where=을 사용하여 효율적으로 select()을 사용할 수 있지만 모든 색인과 모든 열을 원합니다. 또한 select()을 사용하면 RAM을 절약하기 위해 iterator=True을 사용할 수 있지만 여전히 디스크에서 모든 테이블
TypeError: Cannot serialize the column [date] because its data contents are [empty] object dtype. 안녕하세요! 현재 각각 하나의 노드가 포함 된 두 개의 대형 HDFStore가 있는데 두 노드가 모두 메모리에 맞지 않습니다. 노드에는 NaN 값이 포함되어 있지 않습니다. 이제 th
통계 처리를 위해 팬 로그 HDFStore에 많은 양의 http 로그 (80GB +)를 가져옵니다. 단일 가져 오기 파일 내에서도로드 할 때 콘텐츠를 일괄 처리해야합니다. 지금까지 필자가 제안한 방법은 파싱 된 라인을 DataFrame으로 읽은 다음 DataFrame을 HDFStore에 저장하는 것이 었습니다. 내 목표는 인덱스 키를 DataStore의 단