2017-11-01 20 views
0

클러스터링을 통해 데이터의 이상 치를 찾고 싶습니다. 클러스터링 한 후 가장 먼 샘플은 이상치로 간주됩니다. 내 데이터에는 단 하나의 클래스 만있는 것으로 파악되므로 클러스터링을 통해 이상 값을 찾을 수 있습니다. 또는 데이터에 단 하나의 클래스가있을 때 특이점을 찾을 수있는 다른 방법이 있습니까?데이터에 단 하나의 클래스 만 있다면 어떻게 클러스터링 접근법을 통해 특이점을 찾을 수 있습니까?

+0

데이터 세트의 모양에 대한 추가 정보를 제공하는 것이 유용 할 것입니다. 변수 수, 변수 유형 등 – AntoniosK

+0

DBSCAN을 살펴볼 수 있습니다. 일부 지점을 명시 적으로 "노이즈"로 분류합니다 (즉, 어떤 클러스터에도 없음). – G5W

+0

일반적으로 특이 치를 정의하는 것은 없기 때문에 유용한 답을 얻지 못할지도 모릅니다. 따라서 더 많은 결실을 얻으려면 이상치에 대한 명확한 정의를 제공하거나 문제의 더 많은 부분 (데이터의 차원, 데이터 유형, 문제 등)을 공유하려고 시도 할 수 있습니다. –

답변

1

왜 클러스터링이나 클래스가 필요하지 않은 LOF (Local Outlier Factor)와 같은 특이한 특이점 탐지 방법을 사용하지 않습니까?

ELKI (이상 치 검출을위한 표준 도구 일 것임)는 12 가지 이상의 이상치 탐지 방법을 제공합니다. (비록 당신이 제안한 것과 같은) 몇몇 클러스터링 기반 메소드를 포함하지만, 이것들은 전용 메소드만큼이나 훌륭하다고 생각하지는 않습니다.

+0

LOV! R 패키지가 있습니다. 원본 종이는 정말 멋집니다. – PoGibas

+0

IIRC R 패키지는 다소 느리지 만 때로는 kNN 이상 검출과 같은 다른 방법이 더 좋습니다. Loop는 0에서 1까지의 "확률"을 제공하기 때문에 Loop를 좋아합니다. –

+0

@ Anony-Mousse : 데이터에 범주 형 및 연속 형 변수가 있으므로 LOF를 사용할 수 없으므로 LOF는 숫자 데이터로만 작업 할 수 있습니다. – far