1

을 감지팬더는 (효율적) 중복 행을 감지 팬더에 퍼지 매칭을 사용할 수있는 방법 중복

enter image description here

변환 루프 거대한없이 다른 모든 것들 대 한 컬럼의 중복을 찾는 방법 row_i toString() 그리고 다른 모든 것들과 비교 하시겠습니까?

+0

FuzzyWuzzy는 편집 거리를 구현 한 것으로 numpy 또는 유사한 형태의 쌍 간격 거리 행렬을 만드는 데 적합합니다. "중복"또는 거의 일치하는 항목을 찾으려면 적어도 각 행과 다른 행을 비교해야합니다. 그렇지 않으면 두 개가 서로 가까이 있는지 여부를 알 수 없습니다. scipy에서 pdist를 사용하는 솔루션은 http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance를 참조하십시오. –

+0

가능성이 있습니다. http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –

+0

또는 https : // ko를 참조하십시오. .wikipedia.org/wiki/BK-tree. 그 중 어떤 것이 당신의 경우에 특히 도움이되는지 확실하지 않습니다. –

답변

1

특정 팬더는 아니지만 파이썬 생태계 내에서 dedupe python library은 원하는대로 할 것입니다. 특히 행의 각 열을 개별적으로 비교 한 다음 정보를 일치 항목의 단일 확률 점수로 결합 할 수 있습니다.