dput(df)
structure(list(Process = c("PROC050D", "PROC051D", "PROC100D",
"PROC103D", "PROC104D", "PROC106D", "PROC106D", "PROC110D", "PROC111D",
"PROC112D", "PROC113D", "PROC114D", "PROC130D", "PROC131D", "PROC132D",
"PROC154D", "PROC155D", "PROC156D", "PROC157D", "PROC158D", "PROC159D",
"PROC160D", "PROC161D", "PROC162D", "PROC163D", "PROC164D", "PROC165D",
"PROC166D", "PROC170D", "PROC171D", "PROC173D", "PROC174D", "PROC177D",
"PROC180D", "PROC181D", "PROC182D", "PROC185D", "PROC186D", "PROC187D",
"PROC190D", "PROC191D", "PROC192D", "PROC196D", "PROC197D", "PROC201D",
"PROC202D", "PROC203D", "PROC204D", "PROC205D", "PROC206D"),
Date = structure(c(15393, 15393, 15393, 15393, 15393, 15393,
15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393,
15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393,
15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393,
15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393,
15393, 15393, 15393, 15393, 15393, 15393, 15393, 15393), class = "Date"),
Duration = c(30L, 78L, 20L, 15L, 129L, 56L, 156L, 10L, 1656L,
1530L, 52L, 9L, 10L, 38L, 48L, 9L, 26L, 90L, 15L, 23L, 13L,
9L, 34L, 12L, 11L, 16L, 24L, 11L, 236L, 104L, 9L, 139L, 11L,
10L, 22L, 11L, 55L, 35L, 12L, 635L, 44L, 337L, 44L, 9L, 231L,
32L, 19L, 170L, 22L, 19L)), .Names = c("Process", "Date",
"Duration"), row.names = c(NA, 50L), class = "data.frame")
IQR 방법을 사용하여 데이터에서 outliers를 캡처하려고합니다. 그러나이 데이터를 사용할 때 정상적인 데이터를 캡처합니다. 내 데이터 포인트에서 계절성을 제거한 다음 이상 값 규칙을 적용하는 것이 좋습니다.일별 시계열 데이터에서 계절성을 제거합니다.
프로세스 열에는 수천 개의 서로 다른 프로세스가 있습니다. 난 그냥 정상이 아닌 프로세스의 지속 시간을 캡처해야합니다. 내 데이터 세트에서 계절성을 제거하는 방법에 대한 아이디어가 있습니까? 아래의 코드는 특이점을 계산하지만 특이점으로 인해 특이점이 될 수 있습니다. 특이점을 계산하기 전에 내 데이터 프레임에서 계절성을 제거하고 싶습니다.
library(data.table)
df<-df[, seventyFifth := quantile(Duration, .75), by = Process]
df<-df[, twentyFifth := quantile(Duration, .25), by = Process]
df<-df[, IQR := (seventyFifth-twentyFifth), by = Process]
df$diff<-df$Duration-df$seventyFifth
df<-df[, outlier := diff > 3 * IQR, by = Process]
@GSee, no. 게시물을 업데이트했습니다. 계절 데이터가 이상치 계산에 나타나지 않도록 데이터를 제거하거나 마사지하고 싶습니다. 계절 데이터 포인트를 제외하고 내 데이터 세트에서 이상 치를 캡처해야합니다. – user1471980