1

모든 이벤트가 아파치 카프카에 저장되는 데이터 파이프 라인 시스템이 있습니다. 이벤트 처리 계층은 해당 데이터를 소비 및 변환 (시계열) 한 다음 결과 데이터 세트를 Apache Cassandra에 저장합니다.아파치 스파크 (Apache Spark)와의 시계열 데이터에 대한 K- 평균 의미 :

이제 비정상 탐지를 위해 일부 기계 학습 모델을 교육하기 위해 Apache Spark을 사용하고 싶습니다. 아이디어는 과거의 데이터에 대해 k-means 알고리즘을 하루에 한 시간 씩 실행하는 것입니다.

예를 들어 오후 4 시부 터 오후 5 시까 지 모든 이벤트를 선택하고 해당 간격에 대한 모델을 만들 수 있습니다. 이 접근 방식을 적용하면 정확하게 24 개의 모델 (매시간 무게 중심)을 얻을 수 있습니다.

알고리즘의 성능이 좋으면 인터벌의 크기를 예를 들어 5 분으로 줄일 수 있습니다.

시계열 데이터에서 이상 탐지를 수행하는 것이 좋은 방법입니까?

답변

1

저는 전략이 Outliers을 찾는 것이 좋지만 몇 가지 단계를 처리해야한다고 말합니다. 먼저 5 분마다 모든 이벤트를 사용하여 새로운 Centroid 이벤트를 만듭니다. 나는 tahat이 좋은 생각이 아닐 수 있다고 생각한다.

너무 많은 중심을 사용하면 이상 치를 찾기가 정말 어려워지기 때문에 원하지 않는 것이 있습니다.

그럼 좋은 전략을 보자 :

  1. 이 K-수단 K의 좋은 번호를 찾을 수 있습니다.

    너무 중요하거나 너무 적 으면 현실을 잘못 표현할 수 있습니다. 그래서 당신은 모델마다 매일을 만들기 위해 모든 데이터를 사용하지 마십시오 good K
  2. 좋은 교육이 그래서

    을 설정 받아 선택합니다. 당신은 평범한 것을 본 받아야합니다. 이것이 당신이 찾고자하는 것이기 때문에 평범하지 않은 것을 취할 필요가 없습니다. 따라서이 모델을 사용하여 모델을 만든 다음 클러스터를 찾으십시오.
  3. 테스트 해보세요.

    정상적으로 작동하는지 테스트해야합니다. 당신은 이상한 것을 보았습니다. 그리고 당신은 지금 당신이 이상하지 않은 세트를 가지고 있습니다. 수표가 유효한지 확인하십시오. 사용할 수 있도록 도와 드리겠습니다. Cross Validation

아이디어가 좋습니다. 예! 작동하지만 클러스터에서 작업하지 마십시오. 물론 모델을 더 많이 훈련 시키려면 매일 데이터 세트를 가져올 수 있습니다. 그러나 하루에 한 번 무게 중심을 찾는 과정을 만드십시오. 그리고 Euclidian distance 메소드를 사용하여 그룹에있는 항목을 찾으십시오.

내가 당신을 도왔 으면 좋겠어!