: http://dask.pydata.org/en/latest/examples/bag-word-count-hdfs.htmldask.bag 처리 데이터는 내가 offical 한 웹에서 tutoral I에 따라 엄격한, JSON 파일의 단어 수 30기가바이트에 대한 DASK 가방을 사용하기 위해 노력하고있어 메모리 부족
하지만 여전히 내 단일 작동하지 기계는 32GB 메모리 및 8 코어 CPU입니다.
내 코드는 10GB 파일을 처리하는데도 사용되지 않습니다. 오류는 jupyter가 축소되었음을 알리는 시간없이 몇 시간 동안 실행됩니다. 우분투와 Windows에서 모두 동일한 문제가 발생했습니다. 그래서 dask bag이 메모리에서 데이터를 처리 할 수 있다면 의심하지 않습니까? 또는 내 코드가 잘못 되었습니까? http://files.pushshift.io/reddit/comments/
import dask.bag as db
import json
b = db.read_text('D:\RC_2015-01\RC_2012-04')
records = b.map(json.loads)
result = b.str.split().concat().frequencies().topk(10, lambda x: x[1])
%time f = result.compute()
f
주어진 정확한 코드를 사용하려고합니다. 여전히 OverflowError입니다. Python int가 너무 커서 C로 변환 할 수 없습니다. – SharpLu
bz2 파일을 압축 해제 했습니까? – MRocklin
예, 100 % 확실히 압축을 풀었지만 같은 오류가 발생합니다. Windows 시스템의 문제인지 잘 모르겠습니다. 나는 또한 Ubuntu 가상 머신에서 여전히 동일한 문제를 시도했다. 실험 환경을 알려주시겠습니까? – SharpLu