최근 공용 데이터 세트를 통해 DBSCAN 클러스터링을 사용합니다. 그러나 매개 변수 Eps와 minpts는 매우 민감하기 때문에 전체 데이터 세트에서 좋은 성능을 가진 좋은 매개 변수 값을 얻는 것이 매우 어렵습니다. DBSCAN의 매개 변수를 조정할 때 지나치게 적합하다고 보입니다. EM 알고리즘을 사용하여 GMM 모델의 매개 변수를 조정할 수 있다는 것을 알고 있습니다. EM 알고리즘을 DBSCAN에 사용할 수 있는지 궁금합니다. 그것에 대한 아이디어 나 제안이 필요합니다. 누구든지 전에 해봤습니까?EM 알고리즘을 사용하여 하나의 데이터 세트를 통해 DBSCAN의 매개 변수 (eps, minpts)를 결정하는 방법은 무엇입니까?
0
A
답변
0
가우시안 혼합 모델을 사용한 EM 알고리즘은 GMM이 확률 모델이기 때문에 잘 작동합니다. 그것은 각 점에 대한 확률을 산출하고, 확률을 최대화하기 위해 모델 매개 변수를 추론하는 방법을 알고 있습니다.
DBSCAN 플래그에 의미있게 적용 할 수 있다고 생각하지 않습니다. 이 연결성 모델에는 "확률"이 없습니다. 연결된 것은 이진 속성이며,이 값을 최대화하려고하면 모든 것이 연결됩니다. 엡실론 = 불합리 함.
+0
좋은 답변입니다! "연결성 모델"과 "연결된 것은 이진 속성"이라는 것을 간략하게 설명해 주시겠습니까? – ZHENGZhuang
+0
DBSCAN 논문을 참조하십시오. –
대신 OPTICS 및 HDBSCAN *을 사용해보십시오. EM이 당신을 어디든지 데려 올 것이라고 생각하지 않습니다. –
제안 해 주셔서 감사합니다. 나중에 HDBSCAN을 시도 할 것입니다. – ZHENGZhuang