dask

    7

    2답변

    dask 데이터 프레임의 일부 조건을 기반으로하는 열을 만들어야합니다. 팬더 그것은 매우 간단합니다 : def f(x): if x == 200607: y= 'THIS' elif x == 200608 : y= 'THAT' else : y= 1 return y ddf1 = ddf.assig

    1

    1답변

    dd.from_bcolz()가 호출 될 때 즉시 N 개의 열이 올라가고 문자열 유형 열이있을 때 증가하는 일부 처리를 시작하는 지 궁금합니다. 그리고 dd.read_hdf()가 호출 될 때 dask.dataframe를 사용하는 경우에만, 많은 처리를하지 않습니다 - 내가 어떻게 read_hdf 좋아 ... 다음 read_hdf()을 읽고 덩어리로 처리 HD

    1

    1답변

    현재 파이썬 패키지 배포본을 사용하고 있습니다. 파이썬 API로 설정할 때 웹 UI의 주소를 얻는 방법을 아는 사람이 있습니까? 집행 = 집행자() 아니면 내가 항상 웹의 주소를 얻기 위해 명령 줄 DASK - 스케줄러 로 설정해야 UI?

    2

    2답변

    는 df 하나를 통해 아무것도하기 전에 복사 할 수 팬더을 감안할 때 : df.copy() 어떻게이 DASK의 dataframe 객체와이 작업을 수행 할 수 있습니까?

    1

    1답변

    TLDR : dask bag에서 ​​dask 데이터 프레임을 만들었습니다. dask 데이터 프레임은 모든 관찰 (이벤트)을 열로 취급합니다. 따라서 각 이벤트에 대한 데이터 행이있는 대신 각 이벤트에 대한 열이 있습니다. 목표는 팬더가 df.T를 사용하여 데이터 프레임을 조 변경 할 수있는 것과 같은 방식으로 열을 행으로 조 변경하는 것입니다. 세부 사항

    2

    1답변

    dask를 사용하여 한 태스크에서 다른 태스크로 검색 할 수있는 변수가있는 방법이 있습니까? 나는 내가 작업자를 잠근 다음 다른 작업을 실행할 때 같은 작업자에서 검색 할 수있는 변수를 의미합니다.

    0

    1답변

    의 길이와 일치하지 않는 나는 dask이 방법으로 사용하여 CSV 파일을 읽고 : import dask.dataframe as dd train = dd.read_csv('act_train.csv') 가 그럼 난 팬더 꽤 잘 작동 한 줄에 간단한 논리를 적용하려는를 : columns = list(train.columns) for col in colu

    15

    1답변

    현재 데이터 분석을 위해 팬더와 스파크를 사용하고 있습니다. 나는 Dask가 병렬 NumPy 배열과 Pandas DataFrame을 제공한다는 것을 발견했다. 팬더는 파이썬에서 데이터 분석을하기 쉽고 직관적입니다. 그러나 제한된 시스템 메모리로 인해 팬더에서 더 큰 여러 데이터 프레임을 처리하는 데 어려움이 있습니다. 간단한 답변 : 아파치 스파크가 분산

    1

    1답변

    대용량 파일 (50GB)을 처리하기 위해 Dask를 사용하려고합니다. 일반적으로 메모리에로드하고 팬더를 사용합니다. 두 개의 열 "A"와 "B"를 그룹화하고 열 "C"가 값으로 시작될 때마다 특정 그룹의 해당 열에서 해당 값을 반복하려고합니다. 팬더에서 , 나는 다음을 수행하게 df['C'] = df.groupby(['A','B'])['C'].fillna(

    2

    1답변

    나는 세계적으로 dask.diagnostics.ProgressBar을 등록하는 방법이 있으며, 꽤 좋지만 셀 출력이 깨지는 것을 알고있다. 또한 Jupyter Notebook Progress Bar 위젯으로 실행 진행 상황을 표시 할 수있는 멋진 distributed.diagnostics.progress 함수를 보았지만 미래를 기대합니다. 내가 여기에이 문