제품 이름 (음식)과 자동으로 일치해야합니다. 문제가 유사합니다 Fuzzy matching of product names제품 제목에 맞는 퍼지 문자열
주요 문제는 관련 키워드의 한 글자로 변경하더라도 큰 차이를 만들 수 있지만 관련 키워드를 쉽게 찾아 낼 수 없다는 것입니다. 예를 들어 Lenovo T400
, Lenovo R400
및 New Lenovo T-400, Core 2 Duo
의 세 가지 제품 이름을 고려하십시오.
처음 두 (좋아, SOUNDEX이 경우에는 T와 R을 disinguish하는 데 도움이 될 수 있지만, 이름도 400T
및 400R
수 있습니다) 표준에 의해 터무니없이 유사한 문자열, 첫 번째와 세 번째는 아주 멀리 서로 문자열에서 동일한 제품이지만.
분명히 일치 알고리즘이 100 % 정확할 수는 없지만 내 목표는 자동으로 높은 신뢰도로 이름의 약 80 %를 일치시키는 것입니다.
하지만 합병증이 있습니다. 검색하고 싶은 파일이 이미지 인식의 결과이므로 내 문자열에 실수가 있습니다. 제품 제목에는 해당 파일에 공백이 없습니다.
예를 들어, 나는 제품 이름 cookiesoreovarianta
을 찾으려면 내가 문자열
cookiesoreovariant B (진짜 다른 제품)
cookiesoreovariamt Q (진짜 다른 제품, "A"와 "Q이 "일부 글꼴 유사한 문자)
cookiesoreovaria m 타 (단지 실수)
내가 하지 할 수 있습니다 정식 이름의 전체 데이터베이스가 없습니다.
어떻게 접근합니까? 어떤 아이디어?