모든 이벤트가 아파치 카프카에 저장되는 데이터 파이프 라인 시스템이 있습니다. 이벤트 처리 계층은 해당 데이터를 소비 및 변환 (시계열) 한 다음 결과 데이터 세트를 Apache Cassandra에 저장합니다.아파치 스파크 (Apache Spark)와의 시계열 데이터에 대한 K- 평균 의미 :
이제 비정상 탐지를 위해 일부 기계 학습 모델을 교육하기 위해 Apache Spark을 사용하고 싶습니다. 아이디어는 과거의 데이터에 대해 k-means 알고리즘을 하루에 한 시간 씩 실행하는 것입니다.
예를 들어 오후 4 시부 터 오후 5 시까 지 모든 이벤트를 선택하고 해당 간격에 대한 모델을 만들 수 있습니다. 이 접근 방식을 적용하면 정확하게 24 개의 모델 (매시간 무게 중심)을 얻을 수 있습니다.
알고리즘의 성능이 좋으면 인터벌의 크기를 예를 들어 5 분으로 줄일 수 있습니다.
시계열 데이터에서 이상 탐지를 수행하는 것이 좋은 방법입니까?