2012-09-16 8 views
-1

가능한 중복은 : 프로젝트가 DBSCAN를 사용하여 유사한 문자열을 클러스터링에 포함로
How to apply DBSCAN algorithm on grouping of similar urlDBSCAN을 클러스터링 문자열에 적용 할 수 있습니까? 그렇다면 어떻게 수행 할 수 있습니까?

나는 나의 마지막 SEM에서 프로젝트를 수행 들었습니다. DBscan을 사용하여이 작업을 수행 할 수 있는지 알고 싶습니다. 그렇다면 어떻게 구현할 수 있습니까?

+0

우리가 얘기하는 문자열의 어떤 종류의? 긴 기사? 짧은 발췌 문장? 한 마디? 문자열에 어떤 문자가 포함될 수 있습니까? 나는이 질문을 너무 광범위하게 묻는 유혹에 빠지지만 (실제로 문제는 실용적이고 잘 정립 된 문제 여야한다.) 나는 주제가 정말 마음에 든다. –

+0

예 선생님, 감각의 문자열은 단어 또는 심지어 단어의 일부가 될 수 있습니다 예를 들어 둘 다 할 수 있습니다. www.sss.com 및 www.ddd.com은 모두 com으로 끝납니다. 따라서이 유형의 URL과 다른 도메인을 ext로 그룹화하려고합니다. org를 그룹화 할 수 있습니다. 나머지는 소음으로 간주됩니다. –

답변

1

이전에 말씀 드린대로 (How to apply DBSCAN algorithm on grouping of similar url) 가능합니다.

그러나 YOU은 애플리케이션에 필요한 유사성을 정의해야합니다.

매우 당신이 필요한 유사성에 분명하지 않은 한 stackoverflow 아무도 그걸로 당신을 도울 수있을 것입니다.

가능한 문자열 메트릭 많이 있습니다, 그리고 당신당신의 특정 문제에 대한 작동 무엇인지 찾을 필요 :

https://en.wikipedia.org/wiki/String_metric

+0

선생님, 저는 제가 여러분에게 필요한 유사성 유형을 아주 잘 말해 줬습니다 (위의 두 번째 주석). 링크 주셔서 감사합니다. 이 녀석은 같은 유형의 또 다른 질문을 게시 할 수 없습니다. –

+0

당신은 우리에게 * 충분히 길을 말하지 않았습니다. 그것은 너무 부정확하다. 특히 어떤 유형의 유사점을 ** 지금까지 시도 했습니까 **. –