dask

2열

2답변

dask/fastparquet을 사용하여 여러 디렉토리에서 동일한 마루 파일을 읽는 방법

동일한 스키마를 가진 여러 쪽 parquet 파일을 단일 데이터 프레임으로로드하려면 dask를 사용해야합니다. 이것은 동일한 디렉토리에있을 때 모두 작동하지만 별도의 디렉토리에있을 때는 작동하지 않습니다. 예를 들어 : import fastparquet pfile = fastparquet.ParquetFile(['data/data1.parq', 'data

2열

1답변

는 DASK의 dataframe를 집계하고 나는이처럼 보이는 DASK의 dataframe가 집계

의 dataframe 제작 : 그룹에 URL 및 타임 스탬프, 총 열 값의 데이터를 내가 원하는 url referrer session_id ts customer url1 ref1 xxx 2017-09-15 00:00:00 a.com url2 ref2 yyy 2017-09-15 00:00:00 a.com url2 ref3 yyy 20

1열

1답변

Redshift에 사람이 동등한를 달성 할 수있는 좋은 단정하고 안정적인 방법이 있나요 DataFrame

을 DASK하기 DataFrame을 삭제 하시겠습니까? 이 솔루션은 당신이 dask.dataframe에서 read_sql_table 기능을 고려해 볼 수 있습니다 데이터

0열

1답변

Dask and fbprophet

dask과 fbprophet 라이브러리를 함께 사용하려고하는데 잘못된 것이거나 예상치 못한 성능 문제가 있습니다. import dask.dataframe as dd import datetime as dt import multiprocessing as mp import numpy as np import pandas as pd pd.options.mo

1열

1답변

HDF는

TL을 읽기 번역 쓰기, DR을 : 우리는 읽고 난 그 일반적으로 프로젝트에서 일하고 있어요 같은 HDF 에서 기록 DASK와 팬더 코드를 병렬화 문제가있는 읽기, 번역 (또는 데이터 결합) 및이 데이터 쓰기의 세 단계가 필요합니다. 맥락에서 우리는 의료 기록을 가지고 일하고 있으며, 다양한 형식의 주장을 받고이를 표준화 된 형식으로 번역 한 다음 디스크에

1열

1답변

명령 줄에서 dask-distributed 로컬 클러스터를 실행하려면 어떻게해야합니까?

나는 명령 줄에서 Client(LocalCluster())과 동급의 것을하고 싶다. Jupyter 노트북에서 배포 할 때마다 자주 커널을 다시 시작하고 매회 LocalCluster을 새로 시작하고 내 bokeh 웹 페이지를 새로 고침합니다. 나는 단지 연결할 수있는 백그라운드에서 실행되는 프로세스를 가지고있을 가능성이 있습니까? 다른 터미널에서 $ dask

1열

1답변

Dask - 값과 일치하는 행을 검색 중

매우 큰 csv 파일의 폴더를 읽으려고 Dask를 사용하려고 시도하고 있습니다. (모두 메모리에 들어 있지만 크기는 매우 크지만 RAM이 많습니다) - 현재 솔루션은 다음과 같습니다 : val = 'abc' df = dd.read_csv('/home/ubuntu/files-*', parse_dates=['date']) # 1 - df_pd = df.c

1열

1답변

두 개의 Dask가 같은지 확인하기

두 개의 Dask 객체가 같은 결과를 참조하는지 확인하는 올바른 방법은 무엇입니까? 둘 다의 name 속성을 비교하는 것만 큼 간단합니까? 아니면 실행해야하는 다른 검사가 있습니까?

2열

1답변

Python Dask Running Bag 작업을 병렬로 수행

Dask와 read_text를 사용하여 json 파일에서 일련의 작업을 실행하려고하는데 Linux 시스템 모니터를 검사하면 100 %에서 하나의 코어 만 사용됩니다. Dask Bag에서 수행중인 작업을 병렬 처리 할 수 있는지 어떻게 알 수 있습니까? 내가하는 일의 기본 레이아웃은 다음과 같습니다 : import dask.bag as db import

1열

1답변

다중 사용자 dask.distributed 클러스터에서 파이썬 환경을 분리하기위한 옵션은 무엇입니까?

저는 여러 사용자가 동일한 파이썬 파일이나 zip 콘텐츠의 약간 다른 버전을 업로드 할 때 충돌을 피하는 데 특히 관심이 있습니다. 작업자 프로세스가 장기 실행되고 다른 환경의 변경/추가에 따라 실제로 지원되는 사용 사례가 아닌 것 같습니다. 로컬/원격 컨텍스트 스위칭이 용이 한 라이브러리가 좋기 때문에 사용자 별 작업자 프로세스를위한 원활한 배포와 같은