2016-09-30 2 views
2

에서 DASK의 dataframe을 만들 수 있습니다.는, 지연과 같이 보입니다 내가 게으르게 발전기에서 DASK의 dataframe을 만들려면 발전기

df = pd.DataFrame(parsed_rows) 

을 DASK를 만들 수있는 가장 좋은 방법은 무엇 : parser.read 사용 후 목록에서 각 사전을 수집하고, 것이다 (나는 그냥 일반 팬더를 사용하는 경우) 키 - 값 쌍의 사전을 산출 이것에서 데이터 프레임? 그 이유는 a) 반드시 반환 된 결과의 수를 알지 못한다. b) 배치 될 머신의 메모리 할당을 모른다.

는 또한 내가 다른 일을해야하는지 (예를 들어, 어쩌면 dataframes의 무리를 만들고 대신 DASK에 사람을 넣어?)

감사합니다.

답변

1

단일 시스템 Dask 스케줄러를 사용하려면 몇 개의 파일을 시작해야하는지 알아야합니다. 여기에는 다음과 같은 수 있습니다 :

filenames = repo.download_files() 
dataframes = [delayed(load)(filename) for filename in filenames] 
df = dd.from_delayed(dataframes) 

당신이 distributed scheduler 당신이 즉석에서 새로운 계산을 추가 할 수 있습니다 사용하지만,이 조금 더 고급 인 경우.