세 개의 열이있는 큰 csv 파일이 있습니다 : AID, VID, Rel. 파일은 21GB입니다. AID가 정렬되고 Rel가 정렬되도록 정렬하고 싶습니다. 결과는 다음과 같아야합니다 AID VID Rel
A 3 0.9
A 4 0.88
A 5 0.87
A 1 0.7
A 2 0.5
A 6 0.4
A 7 0.35
A 8
timestamp 열이있는 dask 데이터 프레임이 있는데, 그 중 요일과 달을 가져와야합니다. 내가 df.head(10).dt.year 같은 것을 사용하는 경우 여기 그것은 (년 반환) 작동, 이제 DDF 건설 dfs = [delayed(pd.read_csv)(path) for path in glob('../data/20*.zip')]
df = dd.f
MongoDB에있는 내 컬렉션의 모든 문서에는 동일한 필드가 있습니다. 내 목표는 파이썬에 pandas.DataFrame 또는 dask.DataFrame으로로드하는 것입니다. 필자는 병렬화하여 로딩 절차를 가속화하고 싶습니다. 제 계획은 여러 프로세스 나 스레드를 생성하는 것입니다. 각 프로세스는 컬렉션의 청크를로드 한 다음이 청크를 병합합니다. 어떻게하면
dask distributed에 대한 질문이 있습니다. 하나의 작업이 2 GPU (유형 A)에서 실행되는 반면 다른 여러 GPU에서는 1 GPU (유형 B)에서 실행되는 것과 같이 각기 다른 수의 GPU에서 실행되는 일련의 작업을 실행한다고 가정합니다. 내 이해는 "자원"속성을 가진 여러 작업자를 설정할 수 있다는 것입니다. 예를 들어, 총 GPU가 3 개
많은 수의 작업을 배포하기 위해 dask를 사용하고 있습니다. 모든 작업은 독립적이며 외부 응용 프로그램을 실행하는 것으로 구성됩니다. 사용되는 서버 및 입력 인수에 따라 작업을 처리하는 시간이 다를 수 있습니다. 주어진 시점에 일부 근로자는 더 이상 처리 할 작업이없고 다른 작업자가 나머지 작업을 처리하기를 기다립니다. 아래의 나뭇잎 스크린 샷 참조 :
Dask.delayed를 사용하여 좋은 진행 상황을 만들고 있습니다. 그룹으로서 우리는 Dask를 사용하여 그래프 작업에 더 많은 시간을 투자하기로 결정했습니다. 배포에 대한 질문이 있습니다. 우리 클러스터에서 다음과 같은 행동을하고 있습니다. 예 : 시작합니다. 각각 8 개의 노드에 8 명의 작업자가 4 개의 스레드를 가지고 있다고 가정하면 다음과 같은
NYC taxi Dataset의 200Gb를 플로팅하고 싶습니다. 데이터 마이너를 사용하여 팬더 데이터 프레임을 플롯/시각화 할 수있었습니다. 하지만 PySpark 데이터 프레임 (각 8Gb RAM이있는 4 노드 클러스터 사용)을 사용하여 관리하지 못했습니다. 내가 할 수있는 것은, 그것을 사용하는 것입니다. toPandas() PySpark 데이터 프레임
dask 데이터 프레임에 열을 추가하려고했지만 list 유형의 열을 추가 할 수 없으므로 조금만 도달하여 dask 시리즈를 추가한다는 것을 알았습니다. 그러나 내 목록을 dask 시리즈로 변환 할 수는 없습니다. 너 나 좀 도와 줄 수있어?가 메모리에 맞는 경우는 팬더 Dataframe에 목록을 변환 할 수 있습니다