2013-11-14 8 views
1

고객 이름을 다른 형식으로 확인하는 알고리즘 또는 표준이 있습니까? 내 말은고객 이름 확인 알고리즘

,

  • J. 스미스
  • 존 스미스
  • 존 L. 스미스
  • J. 루이스 스미스는
  • 존 루이스 S.

될 수 있을까 같은 사람이고 유효성 검사를 통과해야합니다.

감사

+0

그것은 특히 복잡한 작업처럼 보이지 않습니다. 직접 해결하려 했습니까? – Dukeling

+1

"이름이 무엇인지에 대해 특별히 제한적인 표준을 지정하지 않으면 이것은 매우 어려운 문제가 될 것 같습니다."이전에 Hon에게 "42"로 알려진 사람이 말했습니다. 목사 조나단 루이 (Jonathan Louis) "Louie"Smith, Jr., D.D.S., Ph.D., M.Div. – twalberg

답변

2

나 자신이 이름을 정상화 매우 유사한 접근 방식에 일한으로 Figure out if a business name is very similar to another one - Python의 허용 대답은 확실히 당신을 도울 것입니다.

단일 독립 실행 형 메트릭만으로는 충분하지 않습니다. 앙상블 접근법은 문자 N 그램 매칭, 편집 거리 등을 고려하여 구현되어야하며 궁극적으로 일치 된 단어의 강도를 반환합니다. 일치하는 키워드의 강도를 계산하는 수식을 고안하고 이름 목록이 고갈되면 특정 임계 값 이하의 강도를 가진 이름/단어에 대해 알고리즘을 다시 실행하기 만하면됩니다. 그러면 이름이 일치/강도 값이 더 강한 이름의 다른 클러스터에 공명하게됩니다.

정밀도와 리콜 절충에주의해야합니다. 위의 접근 방식을 통해 나는 정밀도가 너무 좋지만 리콜은 그리 좋지 않다는 것을 알았다.