dask

1열

1답변

세 개의 열이있는 큰 csv 파일이 있습니다 : AID, VID, Rel. 파일은 21GB입니다. AID가 정렬되고 Rel가 정렬되도록 정렬하고 싶습니다. 결과는 다음과 같아야합니다 AID VID Rel A 3 0.9 A 4 0.88 A 5 0.87 A 1 0.7 A 2 0.5 A 6 0.4 A 7 0.35 A 8

0열

1답변

전환 후 Dask`.dt`

timestamp 열이있는 dask 데이터 프레임이 있는데, 그 중 요일과 달을 가져와야합니다. 내가 df.head(10).dt.year 같은 것을 사용하는 경우 여기 그것은 (년 반환) 작동, 이제 DDF 건설 dfs = [delayed(pd.read_csv)(path) for path in glob('../data/20*.zip')] df = dd.f

4열

2답변

MongoDB에서 파이썬으로 데이터로드 병렬화

MongoDB에있는 내 컬렉션의 모든 문서에는 동일한 필드가 있습니다. 내 목표는 파이썬에 pandas.DataFrame 또는 dask.DataFrame으로로드하는 것입니다. 필자는 병렬화하여 로딩 절차를 가속화하고 싶습니다. 제 계획은 여러 프로세스 나 스레드를 생성하는 것입니다. 각 프로세스는 컬렉션의 청크를로드 한 다음이 청크를 병합합니다. 어떻게하면

3열

1답변

dask에서 한 명의 작업자가 GPU 리소스를 관리하는 방법은 무엇입니까?

dask distributed에 대한 질문이 있습니다. 하나의 작업이 2 GPU (유형 A)에서 실행되는 반면 다른 여러 GPU에서는 1 GPU (유형 B)에서 실행되는 것과 같이 각기 다른 수의 GPU에서 실행되는 일련의 작업을 실행한다고 가정합니다. 내 이해는 "자원"속성을 가진 여러 작업자를 설정할 수 있다는 것입니다. 예를 들어, 총 GPU가 3 개

0열

1답변

Dask 데이터 프레임에 속성이 없습니다.

- 1:23:25 - 1:23:45 당 *.h5 파일에 범주 형 열이있는 Dask 데이터 프레임을 저장하려고합니다. store이 stored = store(ddf,'/home/HdPC/Analyzed.h5', ['Tag']) 기능 : @delayed def store(ddf,fp,c): ddf.categorize(columns=c).to_hd

0열

1답변

Dask 분산 작업 도용

많은 수의 작업을 배포하기 위해 dask를 사용하고 있습니다. 모든 작업은 독립적이며 외부 응용 프로그램을 실행하는 것으로 구성됩니다. 사용되는 서버 및 입력 인수에 따라 작업을 처리하는 시간이 다를 수 있습니다. 주어진 시점에 일부 근로자는 더 이상 처리 할 작업이없고 다른 작업자가 나머지 작업을 처리하기를 기다립니다. 아래의 나뭇잎 스크린 샷 참조 :

2열

1답변

Dask 쓰기 디스크 변경

장치에 남은 공간이없는 Dask에 문제가 있습니다. 그러나 나는 /보다 훨씬 많은 공간을 가진 디스크를 가지고있다. Dask가 쓰는 디스크를 어떻게 바꿀 수 있습니까?

1열

1답변

여러 클러스터 노드에 그래프 배포

Dask.delayed를 사용하여 좋은 진행 상황을 만들고 있습니다. 그룹으로서 우리는 Dask를 사용하여 그래프 작업에 더 많은 시간을 투자하기로 결정했습니다. 배포에 대한 질문이 있습니다. 우리 클러스터에서 다음과 같은 행동을하고 있습니다. 예 : 시작합니다. 각각 8 개의 노드에 8 명의 작업자가 4 개의 스레드를 가지고 있다고 가정하면 다음과 같은

0열

2답변

데이터 세이더를 PySpark DataFrame과 함께 사용

NYC taxi Dataset의 200Gb를 플로팅하고 싶습니다. 데이터 마이너를 사용하여 팬더 데이터 프레임을 플롯/시각화 할 수있었습니다. 하지만 PySpark 데이터 프레임 (각 8Gb RAM이있는 4 노드 클러스터 사용)을 사용하여 관리하지 못했습니다. 내가 할 수있는 것은, 그것을 사용하는 것입니다. toPandas() PySpark 데이터 프레임

0열

1답변

dask 시리즈 초기화

dask 데이터 프레임에 열을 추가하려고했지만 list 유형의 열을 추가 할 수 없으므로 조금만 도달하여 dask 시리즈를 추가한다는 것을 알았습니다. 그러나 내 목록을 dask 시리즈로 변환 할 수는 없습니다. 너 나 좀 도와 줄 수있어?가 메모리에 맞는 경우는 팬더 Dataframe에 목록을 변환 할 수 있습니다