dask

    0

    1답변

    a = dd.read_csv('huge.csv', blocksize=1e6) g = a.groupby(['col_a', 'col_b']) g.col_c.sum().max().compute() # failed, MemoryError 저는 dask.dataframe이 메모리 문제에서 실패하지 않을 것이라고 생각했지만 무엇입니까? 은 BTW, 나는 매우

    0

    1답변

    특정 조작을 대체 할 수있는 방법이 있습니까? import dask import numpy as np a = np.zeros((10,10)) a = dask.delayed(lambda x : x*2)(a) 내가 (대신 a[0].compute()를 호출 할 필요없이) a[0]이 숫자를 반환하고 싶습니다. 이것이 가능합니까? imgs2 = imgs - 1 im

    0

    1답변

    저는 dask.distributed를 사용하여 작업자간에 많은 작업을 예약합니다. 설명서에서는 Bokeh 인터페이스에서 프로파일 링 정보를 얻는 방법을 보여줍니다. here. client.profile()을 호출하는 원시 프로필 정보를 얻을 수 있음을 보여줍니다. 그러나이 메서드를 호출하면 프로파일 링 정보에 Boken 인터페이스에있는 반면 프로세스의 평균

    0

    1답변

    CSV에서 데이터를로드 할 때 일부 CSV를로드 할 수 없으므로 빈 파티션이됩니다. 어떤 방법은 빈 파티션에서 제대로 작동하지 않는 것처럼 보이기 때문에 모든 빈 파티션을 제거하고 싶습니다. 예를 들어 repartition(npartitions=10)이 작동하는 곳에서 파티션을 다시 잡으려고했으나 이보다 큰 값은 여전히 ​​빈 파티션이 될 수 있습니다. 이

    2

    1답변

    나는 >>> A.divisions (None, None) >>> A.npartitions 1 에 이미 색인 DASK의 dataframe을하고 난 지금까지 내가 A.reset_index().set_index("index", divisions=sorted(divisions)) A.repartition(divisions=sorted(divisions

    1

    1답변

    는, 즉, 나는 가방이 큰에 때문에 나는 compute을 사용할 수 없습니다 for x in dbag: store.add(x) 같은 뭔가가 필요 기억에 맞게. 나는 distributed.as_completed과 같은 것을 더 필요로하지만, 그것은 distributed.as_completed이 아닌 가방에서 작동합니다.

    0

    1답변

    최근에 dask-0.15.3을 dask-0.16.0으로 업그레이드하고 -119.1을 distribute-1.20.2로 업그레이드했습니다. 업그레이드 후 모든 dask 작업이 예외로 실패합니다. _pickle.UnpicklingError : 상태가 사전이 아닙니다. 라이브러리가 누락 된 경우 알려주십시오. File "/ebs/d1/agent/minicond

    0

    1답변

    GIL 잠금이 다음 코드의 성능을 현저하게 저하 시킵니까? 각 블록의 기능은 numpy 함수 대신 파이썬 루프를 사용합니다. 외부 라이브러리 때문에 파이썬 루프를 사용해야합니다. 테스트 코드 : 그런 경우 import numpy as np import dask.array as da import dask.sharedict as sharedict from

    1

    1답변

    를 받고 : 필요 ID listNum 1 [a,b] 2 [a,b,c] 3 [d,e,f,g] 다음 코드는 list_combine=[x, list(i) for x,y in df[['ID', 'listNum']].values for i in list(itertools.combinations(y,2))] df_combinations =

    0

    1답변

    dask에서 dask.array을 만드는 가장 효율적인 방법은 무엇입니까? 이 시리즈는 300 만 개 목록으로 구성되어 있습니다. 현재이 파티션은 500 개의 파티션으로 나뉩니다. 는 현재 내가 노력하고 있어요 :는 pt = [delayed(np.array)(y) for y in [delayed(list)(x) for x i