영어 이외의 문자열에서도 Levenshtein distance 알고리즘이 제대로 작동합니까?영어 이외의 문자열에서의 Levenshtein 거리
업데이트 : 아시아 문자를 비교할 때 Java와 같은 언어로 자동으로 작동합니까?
영어 이외의 문자열에서도 Levenshtein distance 알고리즘이 제대로 작동합니까?영어 이외의 문자열에서의 Levenshtein 거리
업데이트 : 아시아 문자를 비교할 때 Java와 같은 언어로 자동으로 작동합니까?
언어가 문자 인 경우에만. 예를 들어 러시아어, 독일어, ... 그러나 상형 문자 (예 : 중국) 또는 음절 (예 : 라오스) - 아닙니다.
업데이트 된 질문 : 내 프로그래밍 언어가 유니 코드 문자열을 지원한다면 어떻게해야합니까? –
@ Ryan Fernandes 그럼 행렬 대신 256 x 256 행렬을 사용합니다. 65536 x 65536 – Dewfy
@Dewfy :이 행렬은 256 x 256이란 무엇입니까? –
예. 하지만 영어가 아닌 문자는 여러 문자가 아닌 "1 문자"로 처리해야합니다 (예 : utf-8). 예를 들어 파이썬에서는 유니 코드 클래스를 사용하여 문자열 (및 문자)을 나타냅니다.
Levenshtein은 언어를 신경 쓰지 않고 한 문자열에서 다른 문자열로 이동하기 위해 얼마나 많은 문자를 변경 (추가, 제거, 교환)해야하는지 알려줍니다.
그래 : 그렇지만 charset, 외국의 "단일"문자를 검사해야합니다. 그렇지 않으면 두 개 이상의 문자로 처리됩니다.
업데이트 된 질문 : 내 프로그래밍 언어가 유니 코드 문자열을 지원한다면 어떻게해야합니까? –
RGB 히스토그램에서 작동합니까? 왜 안돼? –