클러스터링을 통해 데이터의 이상 치를 찾고 싶습니다. 클러스터링 한 후 가장 먼 샘플은 이상치로 간주됩니다. 내 데이터에는 단 하나의 클래스 만있는 것으로 파악되므로 클러스터링을 통해 이상 값을 찾을 수 있습니다. 또는 데이터에 단 하나의 클래스가있을 때 특이점을 찾을 수있는 다른 방법이 있습니까?데이터에 단 하나의 클래스 만 있다면 어떻게 클러스터링 접근법을 통해 특이점을 찾을 수 있습니까?
0
A
답변
1
왜 클러스터링이나 클래스가 필요하지 않은 LOF (Local Outlier Factor)와 같은 특이한 특이점 탐지 방법을 사용하지 않습니까?
ELKI (이상 치 검출을위한 표준 도구 일 것임)는 12 가지 이상의 이상치 탐지 방법을 제공합니다. (비록 당신이 제안한 것과 같은) 몇몇 클러스터링 기반 메소드를 포함하지만, 이것들은 전용 메소드만큼이나 훌륭하다고 생각하지는 않습니다.
데이터 세트의 모양에 대한 추가 정보를 제공하는 것이 유용 할 것입니다. 변수 수, 변수 유형 등 – AntoniosK
DBSCAN을 살펴볼 수 있습니다. 일부 지점을 명시 적으로 "노이즈"로 분류합니다 (즉, 어떤 클러스터에도 없음). – G5W
일반적으로 특이 치를 정의하는 것은 없기 때문에 유용한 답을 얻지 못할지도 모릅니다. 따라서 더 많은 결실을 얻으려면 이상치에 대한 명확한 정의를 제공하거나 문제의 더 많은 부분 (데이터의 차원, 데이터 유형, 문제 등)을 공유하려고 시도 할 수 있습니다. –