0
여러 상점의 제품 이름 인 문자열 배열이 있습니다. 이제 목록에있는 상점과 상관없이 동일한 제품을 포함하는 클러스터를 얻기 위해 해당 클러스터를 배열해야합니다. 예를 들어사용자 정의 거리 루비를 사용한 1 차원 문자열 클러스터링
는 :
data = ["Laptop Asus xd45jkl",
"Laptop Acer d3000",
"Notebooh Hp hxsss",
"Laptop Asus xd45jkl intel core i7",
"Laptop Acer d3000 intel core i5 4gb RAM"
]
desired_output = [["Laptop Asus xd45jkl", Laptop Asus xd45jkl intel core i7],
["Laptop Acer d3000", "Laptop Acer d3000 intel core i5 4gb RAM"]
[""Notebooh Hp hxsss""]
]
제품 이름 사이의 거리가 나는 amatch gem에서 JaroWinkler로 생각했다. 이 문자열 배열의 클러스터링을 생성 할 수있는 알고리즘 또는 다른 방법이 있습니다.