2014-01-21 5 views
4

반 감독 (제한) 클러스터링에 대한 실험을하고 싶습니다. 특히 인스턴스 수준의 쌍방향 제약 조건 (Must-Link 또는 Can not-Link 제약 조건)으로 제공되는 배경 지식이 필요합니다. 반 감독 클러스터링을 구현하는 훌륭한 오픈 소스 패키지가 있는지 알고 싶습니다. PyBrain, mlpy, scikit 및 orange를 살펴 보았습니다. 제한된 클러스터링 알고리즘을 찾을 수 없었습니다. 특히 제한된 K-Means 또는 제한 밀도 기반 클러스터링 알고리즘 (C-DBSCAN과 같은)에 관심이 있습니다. Matlab, Python, Java 또는 C++의 패키지가 선호되지만 이러한 언어로만 제한 할 필요는 없습니다.semi-supervised (constrained) 클러스터링을 구현하는 패키지는 무엇입니까?

+0

ELKI를보고 싶을 수 있습니다. 수 많은 클러스터링 알고리즘을 가지고 있지만 여기에는 제한된 클러스터링이 있다는 것을 기억하지 못합니다. 이에 대한 비 합성 데이터 세트가 있습니까? 나는 이것이 항상 학문적 인 것이라고 항상 인상을 갖고 있습니다. C-DBSCAN은 ELKI "GeneralizedDBSCAN"의 ontop을 쉽게 구현할 수 있습니다. –

+0

ELKI 코드를 살펴 보겠습니다.하지만 언뜻보기에 'GeneralizedDBSCAN'클래스 위에 C-DBSCAN을 빌드해야합니다. 그리고 당신 말이 맞습니다. 저는 이것을위한 비 - 합성 데이터 세트가 없습니다. 그리고 이것은 순수 학문적 관심사입니다. :) – user1271286

+1

학문적 관심사 라해도 실제 데이터에는 적용 할 수 있어야합니다. 이미 합성 가우스 배포판에서만 작동하는 알고리즘이 너무 많습니다. 아마도 모든 저자가이 작업을 수행했기 때문일 것입니다. –

답변

4

파이썬 패키지 scikit-learn에는 이제 connectivity constraints을 지원하는 와드 계층 적 클러스터링 (0.15 이후) 및 응집 클러스터링 (0.14 이후) 알고리즘이 있습니다.

게다가 실제로는 각 셀의 위치에서 트랙을 식별 할 수 있습니다. 각 트랙에는 각 시점의 위치가 하나만 포함될 수 있습니다.

2

은 R conclust 패키지는 다수의 알고리즘을 구현

이 패키지 (4 개)의 주요 기능이있다

: ckmeans는() lcvqe() mpckm() 및은 CCL(). 이들은 레이블이없는 데이터 세트와 must-link 및 not-link 제약 조건을 입력으로 사용하고 클러스터링을 출력으로 생성합니다.

파이썬에는 COP-KMeans의 구현도 있습니다.