0

클러스터링에 익숙하지 않고 클러스터링 짹짹에서 약간의 프로젝트를 수행하면서 TF-IDF를 사용한 다음 계층 적 클러스터링을 사용했습니다. 나는 계층 적 클러스터링을위한 임계 값을 설정하는 것에 대해 혼란 스럽다. 가치는 무엇이며 어떻게 결정해야합니까?
필자는 python scikit 모듈을 구현에 사용했습니다.계층 적 클러스터링의 임계 값

답변

1

하기 위해 존재하는 여러 가지 방법이 있지만 계층 적 클러스터링 (또는 일반적으로 클러스터링)을 종료하는 가장 좋은 방법은 없습니다. 이것은 임의의 데이터를 "올바르게"클러스터링하지 않는다는 사실에서 기인합니다. 오히려 "정확성"은 매우 도메인 및 응용 프로그램에 따라 다릅니다.

다른 방법 (예 : 팔꿈치 또는 다른 방법)을 시도 할 수 있지만 자신의 매개 변수가 있으므로 "올바른"클러스터링을 얻으려면 "조정"해야합니다. 이 비디오는 약간의 도움이 될 수 있습니다 (k- 수단을 중심으로 다루지 만 그 개념은 다른 클러스터링 접근법으로 확장됩니다) - https://www.youtube.com/watch?v=3JPGv0XC6AE