가능한 중복은 : 프로젝트가 DBSCAN를 사용하여 유사한 문자열을 클러스터링에 포함로
How to apply DBSCAN algorithm on grouping of similar urlDBSCAN을 클러스터링 문자열에 적용 할 수 있습니까? 그렇다면 어떻게 수행 할 수 있습니까?
나는 나의 마지막 SEM에서 프로젝트를 수행 들었습니다. DBscan을 사용하여이 작업을 수행 할 수 있는지 알고 싶습니다. 그렇다면 어떻게 구현할 수 있습니까?
우리가 얘기하는 문자열의 어떤 종류의? 긴 기사? 짧은 발췌 문장? 한 마디? 문자열에 어떤 문자가 포함될 수 있습니까? 나는이 질문을 너무 광범위하게 묻는 유혹에 빠지지만 (실제로 문제는 실용적이고 잘 정립 된 문제 여야한다.) 나는 주제가 정말 마음에 든다. –
예 선생님, 감각의 문자열은 단어 또는 심지어 단어의 일부가 될 수 있습니다 예를 들어 둘 다 할 수 있습니다. www.sss.com 및 www.ddd.com은 모두 com으로 끝납니다. 따라서이 유형의 URL과 다른 도메인을 ext로 그룹화하려고합니다. org를 그룹화 할 수 있습니다. 나머지는 소음으로 간주됩니다. –