dask

    1

    1답변

    많이 사용되는 분산 클러스터를 설정했습니다. 동일한 컴퓨터에서 IPython 노트북에서 distributed.Client()을 호출하는 것만으로 이상적인 테스트 목적으로 다른 분산 클러스터를 설정하고자합니다. 그러나 두 번째 클러스터의 bokeh 서버에 액세스하는 방법을 알 수 없습니다. scheduler_info()을 호출하면 bokeh 서버가 실행되고

    2

    1답변

    노동자의 수를 지정합니다 나는 예를 들어, 몬테카를로의의를 위해, 실행했지만, 일부 선형 대수 연산과 함께, DASK 예를 들어, 사용자가 지정한 설정을 무시 보인다 : 나는 작은 매트릭스 크기가 그 프로그램을 실행하면 import dask.array as da import dask from multiprocessing.pool import Thread

    1

    1답변

    일부 로컬 계산을 수행하기 위해 distributed.Client을 사용하고 있습니다. 또한 관련없는 모니터링을 수행하기 위해 메인 스레드에서 gevent greenlet을 생성하려고합니다. gevent의 patch_all() 메서드를 사용하면 네이티브 스레드를 greenlets로 만듭니다. 스케줄러에 의해 수행 된 대부분의 작업이 pandas/numpy이

    4

    1답변

    Dask 및 Distributed을 사용하여 데이터 분석 파이프 라인을 개발하는 데 많은 성공을 거두고 있습니다. 그러나 여전히 개선을 기대하고있는 한 가지는 예외 처리 방식입니다. 는 지금, 내가 쓰는 def my_function (value): return 1/value results = (dask.bag .from_sequence

    1

    1답변

    올바른 IAM 역할을 가진 ec2 인스턴스에서 실행중인 작업자와 s3의 많은 csv 파일을 읽으려고합니다 (다른 스크립트의 동일한 버킷에서 읽을 수 있음). 내가이 명령을 사용하여 개인 버킷에서 내 자신의 데이터를 읽을 때 : client = Client('scheduler-on-ec2') df = read_csv('s3://xyz/*csv.gz',

    0

    1답변

    열이있는 pandas DataFrame이 있는데 numpy 2D 배열로 이미지가 포함되어 있습니다. 히스토그램이있는 시리즈 또는 DataFrame을 다시 한 열에 넣고 dask과 병행해야합니다. 샘플 코드 : import numpy as np import pandas as pd import dask.dataframe as dd def func(dat

    3

    2답변

    최근에 만났습니다 http://dask.pydata.org/en/latest/ 단일 코어에서만 실행되는 팬더 코드가 있으므로 다른 CPU 코어를 사용하는 방법이 궁금합니다. 모든 (로컬) CPU 코어를 사용하는 것이 좋을까요? 그렇다면 팬더와 얼마나 호환됩니까? 팬더가있는 여러 CPU를 사용할 수 있습니까? 지금까지 나는 GIL을 풀어 놓는 것에 대해 읽었

    3

    1답변

    저는 24 개의 vCPU가있는 Google 클라우드 컴퓨팅 인스턴스를 작업 중입니다. 코드 실행 내가 그것을 실행 (이 또한 내가 데이터를로드 한 후 일을하고있는 후방 데이터 분석의 경우) 가끔, 4 나는 11 개 코어가 사용되는 것을 볼 때 다음과 같은 import dask.dataframe as dd from distributed import Clie

    1

    1답변

    내 작업의 진행 상황을 시각화하는 데 몇 가지 문제가있었습니다. 나는 8787 포트에서 상태 페이지를 사용 했었지만 시각화가 blogposts에서 볼 수있는 것과 같이 항상 매끄러운 (새로 고침 빈도) 것처럼 보이지는 않습니다. 부드럽게 달리고 타이머가 있었기 때문에 dask.diagnostics.progress을 사용할 때 매우 기뻤습니다. 그러나 이번에

    1

    1답변

    지원되는 알고리즘과 일반적인 작업 그래프 실행 모두에 대해 dask-distributed를 사용하고 싶습니다. 불행히도 우리가 사용하는 배치 스케줄러는 DRMAA를 지원하지 않으므로 dask-drmaa를 사용할 수 없습니다. 모든 호스트가 NFS를 사용할 수 있습니다. Dask를 사용하여 시작할 수있는 방법이 있습니까? 아니면 배치 스케줄러에서 DRMAA를