-4
DBSCAN 알고리즘을 사용하여 유사한 URL을 그룹화하는 방법. 많은 데이터 세트를 보았지만 아무도 URL에 없었습니다. 유사한 유형의 URL을 가져 와서 그룹으로 묶고 싶습니다. 여기에서는 거리 (eps)를 알 수 없으며 minpoint는 그룹화 할 URL 수입니다.비슷한 URL 그룹화에 DBSCAN 알고리즘을 적용하는 방법
DBSCAN 알고리즘을 사용하여 유사한 URL을 그룹화하는 방법. 많은 데이터 세트를 보았지만 아무도 URL에 없었습니다. 유사한 유형의 URL을 가져 와서 그룹으로 묶고 싶습니다. 여기에서는 거리 (eps)를 알 수 없으며 minpoint는 그룹화 할 URL 수입니다.비슷한 URL 그룹화에 DBSCAN 알고리즘을 적용하는 방법
DBSCAN은 유사한 객체를 탐지하기위한 거리 함수와 임계 값이 필요합니다.
먼저 적절한 거리 함수와 임계 값을 정의해야합니다. 그러면 DBSCAN에 대해 도움을 줄 수 있습니다 (그러나 임의의 거리 함수로 확장 할 수있는 DBSCAN 구현을 찾을 수 있어야합니다).
중요한 도전은 거리이며, 우리는 을 알고 있기 때문에을 알고 싶어합니다. 이것은 매우 주관적이며, 우리는 단지 당신이 원하거나 필요로하는 것을 모릅니다.
그렇습니다. 거리 함수는 그래프에서 탐지 할 포인트가있을 때 발생합니다. 유사한 도메인 확장자를 일치시키고 그룹화하여 URL을 가져 오는 방법을 고려할 수 있습니까? –
DBSCAN은 그래프를 사용하지 않습니다. 거리 함수를 사용하므로 URL에 대한 거리 함수를 정의해야합니다. –
그래, URL에 대해 정의 할 수있는 방법을 알아야합니다. –