0

주소, 이름, IBAN, 전자 메일과 같은 값을 가진 스프레드 시트가 있으며 마지막으로 고객이 구입 한 시간을 확인하려고합니다.퍼지 ID 핑거 프린팅

일부 필드는 맞춤법 오류가 포함되어 있으며 일부는 의도적으로 잘못 입력 한 것입니다.

https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match 또는 https://github.com/atom/fuzzaldrin과 같은 여러 라이브러리를 사용하여 단일 및 유사한 열을 기반으로 퍼지 검색을 수행 할 수 있습니다. 하지만 여러 필드를 결합하고 싶습니다. 이것은 일반적인 문제처럼 들리지만 기존 솔루션을 찾을 수있을 것으로 기대됩니다.

이러한 문제에 대한 접근 방법을 권장 할 수 있습니까? 제가 누락 된 문제에 대한 기존 프로젝트가 있습니까? 일반적으로 모든 문자열에 대해 일반적인 문자열 거리가 충분합니까?

답변

1

다른 질문에서 언급했지만 dedupe python librarydoes what you want입니다.

기본적으로 한 쌍의 각 필드 사이의 거리를 계산 한 다음 최적의 가중치를 학습하여 해당 거리를 단일 레코드 쌍 점수로 결합합니다.