문자열의 배열이 있고이를 클러스터로 정렬해야한다고 가정 해 봅시다.텍스트 문자열 유사성을 계산하는 방법은 무엇입니까?
클러스터 1 : 저는 현재 N-g, 예를 들어, 사용하여 분석을 수행하고
- 파이프 파이프에 대해 라스 베이거스에서
- 영화를 고정
- 파이프를 고정 고정을
클러스터 2 :
- 클래식 음악 클래식 음악이 좋은 이유
-
등
클래식 음악
이의 나는이 두 문자열이이 배열 내 가정 해 봅시다 무엇
일본
- 일본인 학생
- 학생들은 이제 N 그램 방법은 분명,이 두 가지 문자열을 넣어하지 않습니다. 나는 Damerau-Levenshtein 거리 계산과 TF/IDF를 사용해 보았지만 둘 다 너무 많은 외부 잡음을 잡았다. 이 두 문자열이 단일 클러스터에 속한다는 것을 이해하는 데 사용할 수있는 다른 기술은 무엇입니까?
감사합니다. 감사합니다. –