저는 지난 며칠 동안 soundex, metaphone 및 기타 문자열 검색 기술을 연구해 왔으며 두 가지 알고리즘 모두 영어 이외의 단어를 잘 처리 할 때 잘 작동합니다.영어 이외의 문자에 soundex/metaphone 사용 가능
그러나 내가 가진 요구 사항은 독창적이고 번역되지 않은 언어로 작업 할 수 있으며 독일어, 노르웨이어 및 시칠리아 알파벳과 같은 영문자를 수용 할 수 있습니다.
이러한 알파벳을 완전히 처리 할 수있는 검색 알고리즘이 있습니까? 아니면 Lucene과 같은 타사 전체 텍스트 검색 라이브러리를 사용하는 것이 더 낫지 않습니까? 결과적으로 질문은 'Lucene이 영어가 아닌 문자를 처리합니까?'라는 질문이 나온다.
유스 케이스가 영어 이외의 언어로 된 텍스트 검색 일 경우 soundex가 필요하지 않을 수 있습니다. ire_and_curses가 말했듯이 적절한 분석기로 Lucene이 필요합니다. 같은 단어의 다른 문자 변형을 처리하려면 음성 일치 알고리즘이 필요합니다. 당신의 유스 케이스에 대해 더 많이 말할 수 있습니까? –