병렬 txt 파일에서 dask 데이터 프레임 읽기

S3에 두 개 (또는 그 이상)의 병렬 텍스트 파일이 저장되어 있습니다. 즉, 첫 번째 파일의 첫 번째 줄 1은 두 번째 파일의 줄 1과 일치합니다. 이러한 파일을 열 데이터 프레임을 삭제합니다. 가장/가장 쉬운 방법/가장 빠른 방법은 무엇입니까?병렬 txt 파일에서 dask 데이터 프레임 읽기

추신. 개별 데이터 프레임으로 각각을 읽을 수는 있지만 데이터 프레임 인덱스 값이 고유하지 않고 단조롭지 않기 때문에 인덱스에 조인 할 수 없습니다. 동시에 줄의 대응은 각 파일의 위치에 따라 정의됩니다.

출처

2017-10-18 evilkonrex

불행히도 dask.dataframe은 큰 파일을 줄 단위가 아닌 바이트 단위로 구분합니다. 모든 파일을 먼저 읽지 않고 큰 파일의 특정 줄을 찾아보기가 쉽지 않습니다.

출처

2017-10-18 16:24:57 MRocklin

그렇다면 글로벌 모노톤 (또는 적어도 유일한) 색인을 생성 할 수 있습니까? Map_partitions()을 사용하고 로컬 (파티션 내부) 인덱스 값을 파티션 번호와 결합하여 수동으로 처리 할 수 있다고 가정합니다. 비슷한 것이 프레임 워크에서 이미 사용 가능한지 궁금합니다. – evilkonrex

아마도 수동으로 요리해야 할 것입니다. 나는 이것을하기위한 기존의 코드를 모른다. – MRocklin

병렬 txt 파일에서 dask 데이터 프레임 읽기

답변

관련 문제