별도로 수집 된 동일한 학생 세트에 대한 두 개의 이름 목록이 있습니다. 수많은 인쇄 상 오류가 있으며 두 목록을 연결하기 위해 퍼지 매칭을 사용하고 있습니다. 나는 agrep
과 비슷한 99 + %를 가지고 있지만 다음과 같은 기본적인 문제에 매달 렸습니다. 예를 들어 forenames "Adrian Bruce"와 "Bruce Adrian"을 어떻게 일치시킬 수 있습니까? Levenshtein 편집 거리는 대소 문자 수를 계산하므로이 특별한 경우에는 좋지 않습니다.R에서 "Firstname Lastname"/ "Lastname Firstname"과 순서 독립적 인 퍼지 매칭?
매우 일반적인 문제 여야하지만 표준 R 패키지 또는 주소 지정 루틴을 찾을 수 없습니다. 나는 명백한 무엇인가 놓치고 있다고 가정한다. .. ???
@Ritchie Cotton은 지적했듯이 3+ 이름, 선택적인 하이픈 넣기를 어떻게 처리합니까? ''와 '-'둘 다에 나눌 수 있습니다. (cat (sort (c ('Smith', 'John')), collapse = '')는 'John Smith'를 제공합니다. – smci
저는 알파벳 순으로 이름 튜플을 재정렬하면 표준 순서를 설정할 수 있습니다. 제목을 편집하여 * "이름 성"/ "성 이름"*으로 주문 독립성을 지정하십시오. 더 보편성이 필요하면 다시 편집하십시오. – smci