pandas.dataframe.duplicated은 데이터 프레임 내의 지정된 열에서 중복 행을 찾는 데 유용합니다.팬더가있는 메모리보다 큰 데이터 세트에서 중복 된 행 가져 오기
그러나 데이터 세트는 메모리에 맞는 것보다 크며 합당한 예산 한도 내에서 확장 한 후에도 적합합니다.
내 데이터 세트 (csv 및 dbf 파일)를 반복 할 수 있으므로 각 파일을 메모리에로드하고 순서대로 모든 작업을 수행해야하므로 대부분의 분석을 수행해야합니다. 그러나 중복 분석과 관련해서는 전체 데이터 세트에서 단일 파일 내에서만 중복 된 데이터를 찾는 데 적합하지 않습니다.
동시에 여러 메모리에 데이터를로드 할 필요없이 여러 데이터 프레임에서 중복 된 데이터를 찾을 수있는 알고리즘이나 접근법이 있습니까?
어떻게 행의 해시 값과 중복 해시 값을 찾고 어떻습니까? – AndreyF