나는 R을 사용하여 다변량 특이점을 식별하는 가장 좋은 방법을 사방에서 검색해 왔지만 아직 어떤 믿을만한 접근법도 찾지 못했다고 생각합니다. 내 데이터는, 내가 모두 가져 라이브러리 MVN확률로 R을 사용하는 다 변수 특이점 탐지
library(MVN)
result <- mvOutlier(df, qqplot = TRUE, method = "quan") #non-adjusted
result <- mvOutlier(df, qqplot = TRUE, method = "adj.quan") #adjusted Mahalonobis distance
에서 마할 라 노비스 거리를 사용하고 여러 필드
첫째data(iris)
df <- iris[, 1:4] #only taking the four numeric fields
을 포함로
우리는 홍채 예를 들어 같은 데이터를 취할 수 많은 비수기 (비 조정의 경우 150 개, 조정의 경우 49/150 개)가 더 정교해야한다고 생각합니다. (우리가 작은 수를 가질 수 있도록, 아웃 라이어가되는 지점의 확률을 증가 말한다) 나는 불행하게도
둘째, 나는 이상치 라이브러리를 사용 임계 값을 설정하는 mvOutlier 방법에 변수를 찾을 수 없습니다 . 이것은 단 하나의 특이점을 찾는 것입니다. 그래서, 제 계획은 데이터의 각 차원에서 특이점을 찾고 모든 차원에서 특이점 인 점을 데이터 집합의 이상 치로 간주합니다.
library(outliers)
result <- scores(df, type="t", prob=0.95) #t test, probability is 0.95
result <- subset(result, result$Sepal.Length == T & result$Sepal.Width == T & result$Petal.Length == T & result$Petal.Width == T)
이 경우 확률을 설정할 수는 있지만 다각적 인 이상 치 검출을 대체 할 수는 없다고 생각합니다.
내가
- 라이브러리 (mvoutlier) 시도 몇 가지 다른 접근 방식이 만 플롯을 보여줍니다. 가 자동으로 특이 치를 찾는 것은 어렵습니다. 그리고 나는이
- 요리사의 거리 (link)에 확률을 추가하는 방법을 모른다 : 사람은 그가 요리사의 거리를 사용하지만 에 대한 강한 학문적 증명이는 것을 증명 없다고 생각했다 승인.
쿡의 거리
안녕 앤드류, 당신의 의견을 주셔서 감사합니다. 쿡의 거리가 좋아 보이지만, 당신이 적합 라인을 만들어야 할 때 Y에 무엇을 넣어야할지 모르겠습니다 (Y ~., 데이터)를 포함 할 수있다. Mahalanobis Distance의 경우 R 구현을 본 적이 없다고 생각합니다. 또한이 논문은 임계 값의 증가/감소에 대해서는 언급하지 않았다. 이상 치를위한 조리 거리의 평균을 3 시간으로 줄이면 어떻게되는지 궁금합니다. 마지막으로,이 방법의 신뢰도/정확성을 테스트하는 방법을 알고 있습니까? –