레코드 중복 제거를 위해 Dedupe.io lib를 사용하고 있습니다. 교육 과정 중에 uncertainPairs() method of Dedupe class이 동일한 레코드 집합을 여러 번 반환하고 교육 과정을 완료 할 수 없기 때문에 문제가 발생합니다. 문서에서 문제가 될 수있는 결론을 내리려고했지만 해결책을 찾지 못했습니다. 누구나 lib와 비슷한 문
첫 번째로, 파이썬에 대해 라이브러리를 보지 못했다면, 정말 멋지 네요. TensorFlow와 마찬가지로, 기계 학습을 대중과 (나 같은) 가져 오는 좋은 방법입니다. 나는 하나의 커다란 지저분한 데이터 세트에 대해 이름의 레코드 연결을 시도하고있다. 지금은 경험적 방법을 사용하고 있으며 더 복잡한 데이터 세트로는 부족해지기 시작합니다. 질문 : (일대일하
중복 제거 문제가 발생했습니다. 이 라이브러리를 사용하여 거대한 주소 집합에서 중복을 제거하려고합니다. 나는 그것을 실행할 때 import collections
import logging
import optparse
from numpy import nan
import dedupe
from unidecode import unidecode
opt