2017-01-04 10 views
7

나는 R을 사용하여 다변량 특이점을 식별하는 가장 좋은 방법을 사방에서 검색해 왔지만 아직 어떤 믿을만한 접근법도 찾지 못했다고 생각합니다. 내 데이터는, 내가 모두 가져 라이브러리 MVN확률로 R을 사용하는 다 변수 특이점 탐지

library(MVN) 
result <- mvOutlier(df, qqplot = TRUE, method = "quan") #non-adjusted 
result <- mvOutlier(df, qqplot = TRUE, method = "adj.quan") #adjusted Mahalonobis distance 

에서 마할 라 노비스 거리를 사용하고 여러 필드

첫째
data(iris) 
df <- iris[, 1:4] #only taking the four numeric fields 

을 포함로

우리는 홍채 예를 들어 같은 데이터를 취할 수 많은 비수기 (비 조정의 경우 150 개, 조정의 경우 49/150 개)가 더 정교해야한다고 생각합니다. (우리가 작은 수를 가질 수 있도록, 아웃 라이어가되는 지점의 확률을 증가 말한다) 나는 불행하게도

둘째, 나는 이상치 라이브러리를 사용 임계 값을 설정하는 mvOutlier 방법에 변수를 찾을 수 없습니다 . 이것은 단 하나의 특이점을 찾는 것입니다. 그래서, 제 계획은 데이터의 각 차원에서 특이점을 찾고 모든 차원에서 특이점 인 점을 데이터 집합의 이상 치로 간주합니다.

library(outliers) 
result <- scores(df, type="t", prob=0.95) #t test, probability is 0.95 
result <- subset(result, result$Sepal.Length == T & result$Sepal.Width == T & result$Petal.Length == T & result$Petal.Width == T) 

이 경우 확률을 설정할 수는 있지만 다각적 인 이상 치 검출을 대체 할 수는 없다고 생각합니다.

내가

  • 라이브러리 (mvoutlier) 시도 몇 가지 다른 접근 방식이 만 플롯을 보여줍니다. 가 자동으로 특이 치를 찾는 것은 어렵습니다. 그리고 나는이
  • 요리사의 거리 (link)에 확률을 추가하는 방법을 모른다 : 사람은 그가 요리사의 거리를 사용하지만 에 대한 강한 학문적 증명이는 것을 증명 없다고 생각했다 승인.

쿡의 거리

답변

3

내가 첫 번째 두 번째는 R. 이러한 구현하는 방법을 찾고있는 동안, 다변량 이상치 탐지를위한 다른 방법에 종이이며,이 두 링크가 당신을 떠날 것입니다 데이터 포인트가 가지는 영향을 조사하는 올바른 방법이며, 외곽 점을 감지하는 데 도움이됩니다. Mahalanobis 거리도 정기적으로 사용됩니다.

테스트 예에서 홍채 데이터 세트는 유용하지 않습니다. 명확하게 구분할 수 있으므로 분류 문제에 사용됩니다. 50 데이터 포인트를 제외하면 전체 종을 없앨 수 있습니다.

특이점 탐지 다변량에서 데이터 -

http://www.m-hikari.com/ams/ams-2015/ams-45-48-2015/13manojAMS45-48-2015-96.pdf

R 구현

http://r-statistics.co/Outlier-Treatment-With-R.html

+0

안녕 앤드류, 당신의 의견을 주셔서 감사합니다. 쿡의 거리가 좋아 보이지만, 당신이 적합 라인을 만들어야 할 때 Y에 무엇을 넣어야할지 모르겠습니다 (Y ~., 데이터)를 포함 할 수있다. Mahalanobis Distance의 경우 R 구현을 본 적이 없다고 생각합니다. 또한이 논문은 임계 값의 증가/감소에 대해서는 언급하지 않았다. 이상 치를위한 조리 거리의 평균을 3 시간으로 줄이면 어떻게되는지 궁금합니다. 마지막으로,이 방법의 신뢰도/정확성을 테스트하는 방법을 알고 있습니까? –